阅读笔记

论文相关信息

题目：YOLOv3: An Incremental Improvement

作者：Joseph Redmon, Ali Farhadi

来源：https://arxiv.org/pdf/1804.02767.pdf

摘要

本文提出了一些YoLo的改进方法。文中做了一些设计上的小变化，使之表现得更好。在$320\times 320$输入下YoLov3的检测速度为$22ms$，平均精确度为$28.2mAP$，在精度一致的SSD网络下，速度快了3倍。在Titan X下，YoLov3检测平均精度为$57.9AP_{50}$，耗时$51ms$，而RetinaNet检测平均精度为$57.5AP_{50}$时，耗时需要$198ms$，相当于YoLov3的3.8倍。

主要工作

Bounding Box Prediction：与YoLo9000一致，采用维度聚类生成Anchors（主要是不同尺度的Anchor($p_w, p_h$)）。用于网络预测四个坐标值（$t_x, t_y, t_w, t_h$）。Yolo最后一层输出为一个$m\times m \times output_{channels}$的特征图，特征图中的每一个像素点（$c_x, c_y$）预测一个bbox，则预测的bbox的坐标为 $b_x = \sigma(t_x) + c_x \\ b_y = \sigma(t_y) + c_y \\ b_w = p_we^{t_w}\ \ \ \ \ \ \ \\ b_h = p_he^{t_h}\ \ \ \ \ \ \$ 训练过程中采用MSE损失。

Class Prediction：采用独立的logistic分类器替换softmax，在训练过程中采用二值交叉损失。

Predictions Across Scales：在3种不同尺度的特征图上进行目标的预测。输出的特征图大小为 $w_{featuremap} \times h_{featuremap} \times[\#Anchors \times(4+1+\#class)]$

Feature Extractor：相较于Yolov2，本文采用的网络明显更大，共有53层卷积层。称之为DarkNet-53

Training：采用整幅图片进行网络训练，并未采用hard negative mining等方法。本文采用不同scale进行训练，并采用数据增强和batchnorm等。

实验结果

就COCO数据集而言，YoLov3与SSD的变体性（DSSD513）能相当，但是速度要快三倍；在IOU阈值为0.5时，YoLov3表现非常出色，与RetinaNet效果相当，但是随着IOU阈值的增加，YoLo的效果逐渐变差。

较于YoLov2，由于采用了多尺度特征图进行预测，YoLov3在对小尺度的目标预测是效果明显有所提升，并且AP明显比YoLov2有着大幅提升。

MathJax TeX Test Page

YOLOv3 An Incremental Improvement

论文阅读笔记

阅读笔记

论文相关信息

摘要

主要工作

实验结果

CATALOG

FEATURED TAGS

FRIENDS