YOLOv3 An Incremental Improvement

论文阅读笔记

Posted by Kiri on May 5, 2019

阅读笔记

论文相关信息

题目:YOLOv3: An Incremental Improvement

作者:Joseph Redmon, Ali Farhadi

来源:https://arxiv.org/pdf/1804.02767.pdf


摘要

本文提出了一些YoLo的改进方法。文中做了一些设计上的小变化,使之表现得更好。在$320\times 320$输入下YoLov3的检测速度为$22ms$,平均精确度为$28.2mAP$,在精度一致的SSD网络下,速度快了3倍。在Titan X下,YoLov3检测平均精度为$57.9AP_{50}$,耗时$51ms$,而RetinaNet检测平均精度为$57.5AP_{50}$时,耗时需要$198ms$,相当于YoLov3的3.8倍。


主要工作

Bounding Box Prediction:与YoLo9000一致,采用维度聚类生成Anchors(主要是不同尺度的Anchor($p_w, p_h$))。用于网络预测四个坐标值($t_x, t_y, t_w, t_h$)。Yolo最后一层输出为一个$m\times m \times output_{channels}$的特征图,特征图中的每一个像素点($c_x, c_y$)预测一个bbox,则预测的bbox的坐标为 训练过程中采用MSE损失。

Class Prediction:采用独立的logistic分类器替换softmax,在训练过程中采用二值交叉损失。

Predictions Across Scales:在3种不同尺度的特征图上进行目标的预测。输出的特征图大小为

Feature Extractor:相较于Yolov2,本文采用的网络明显更大,共有53层卷积层。称之为DarkNet-53

pic1

Training:采用整幅图片进行网络训练,并未采用hard negative mining等方法。本文采用不同scale进行训练,并采用数据增强和batchnorm等。


实验结果

就COCO数据集而言,YoLov3与SSD的变体性(DSSD513)能相当,但是速度要快三倍;在IOU阈值为0.5时,YoLov3表现非常出色,与RetinaNet效果相当,但是随着IOU阈值的增加,YoLo的效果逐渐变差。

较于YoLov2,由于采用了多尺度特征图进行预测,YoLov3在对小尺度的目标预测是效果明显有所提升,并且AP明显比YoLov2有着大幅提升。

pic1

MathJax TeX Test Page