阅读笔记
题目:Feature Pyramid Networks for Object Detection
来源:CVPR2017
背景:Feature Pyramid是检测多尺度物体的识别系统中一个基本的组成部分。但近几年来基于深度学习的目标检测方法避免了Pyramid表示,很大程度上因为它受到计算和存储的制约。
本文主要介绍如何使用网络内的特征金字塔代替特征化的图像金字塔,而不牺牲速度以及存储空间,并且创建的金字塔在所有尺度上都有很鲁棒的语义特征。
(a)先对图像进行缩放,在不同尺度的图像上提取特征,每个尺度特征图都要进行预测,因此运算速度很慢。此种方法在人工设计特征时代大量的使用
(b)图像不缩放,但是可以提取不同尺度的特征图(映射过程),只在最后的层特征上进行预测
(c)图像不缩放,但是可以提取不同尺度的特征图(映射过程),每个尺度上进行预测,一种多尺度融合方式(SSD采用此种方式)
(d)$^*$图像不缩放,但是可以提取不同尺度的特征图(映射过程),特征图有一个向下传播的过程(高分辨率+高层级特征)并且有横向连接,每层独立预测
相关工作:
-
人工设计特征和早期神经网络
SIFT特征、HOG特征;早期用于人脸检测的卷积网络在图像金字塔上进行浅层网络的计算。
-
深度卷积网络目标检测
R-CNN、SPPNet、Fast R-CNN、Faster R-CNN
-
使用多层的方法
FCN、Hypercolumns、HyperNet、ParseNet、ION、SSD、MS-CNN
Feature Pyramid Networks:
采用任意大小的单尺度图像作为输入,并以全卷积的方式输出多个层次的按比例大小的特征图。这一过程独立于骨架卷积结构,在这篇文章中采用的骨架网络为ResNet。
金字塔网络的结构包括三个部分:自下而上的通路(Bottom-up pathway)、自上而下的通路(Top-down pathway)、横向连接(Lateral connections)。
-
Bottom-up pathway(主干卷积网络的前馈计算):
在卷积网络中输出的特征图尺度相同的多个卷积层称为网络的一个阶段,每一个网络阶段定义为一个金字塔等级,并选择网络阶段中最后一层卷积输出的特征图作为特征图参考集(reference set of feature maps),由于每一个阶段中深层的特征图具有更强的语义特征(strongest features)。
-
Top-down pathway and lateral connections
通过较高的金字塔等级的低分辨率特征图(空间粗糙,但是语义特征更强)生成高分辨率的特征。通过横向连接Bottom-up进而增强特征图。具体的连接方式如上图所示,使用较粗糙分辨率特征图,将空间分辨率上采样2倍,采样之后和相应的bottom-up特征图(进行 $1 \times 1$卷积操作,降低通道数)进行融合(融合方式:逐元素相加),此外在特征图融合后,还会采用一个$3\times 3$的卷积消除混叠效应。
应用:
-
RPN中应用Feature Pyramid Networks
在原始的RPN中,在最上层单尺度特征图上,使用一个$3 \times 3$滑动窗生成Anchors,之后紧跟两个$1\times 1$的网络用于分类和回归
在本文中,作者将用于RPN的单尺度特征图替换成FPN生成的多尺度特征图,然后固定每一种特征图上Anchors的尺寸(但仍采用三种不同长宽比)。并基于与GT的IOU比率,将Anchors分为正例和负例,与Faster R-CNN中一致,IOU大于0.7的为正例,小于0.3的为负例。
-
Fast R-CNN中应用Feature Pyramid Networks
Fast R-CNN是一种基于候选区域的目标检测算法,网络中的ROI池化结构用于提取图像特征,在Fast R-CNN中FPN主要与ROI进行结合,将ROI应用于由RPN生成的不同尺度的特征图上。