【论文学习记录】Light-Head R-CNN: In Defense of Two-Stage Object Detector

这篇旷视科技和清华大学联合发表的，为目标检测的two-stage方法挽回尊严（哈哈哈），论文原文《Light-Head R-CNN: In Defense of Two-Stage Object Detector》。

一直以来，在目标检测领域，one-stage方法和two-stage方法之间都有着一个不可逾越的鸿沟，one-stage 方法（YOLO， SSD等）检测速度快，但是精度差了一些，two-stage的方法精度高，但是速度太慢。

作者说two-stage方法之所以慢是因为the head is heavy。Two-stage方法第一步是生成proposals，这一步的网络称之为body，第二步是识别这些proposals，这一步的网络称之为head。因为对每一个ROI计算的子网络很大，所以不管怎么选择轻量级的backbone网络，对速度的提升也不会很大，因为主要的计算量不在这里。

对比Faster RCNN和R-FCN，Light-Head R-CNN结合了二者的优点：

使用了thin feature map 10×p×p ，代替R-FCN的classes × p × p，这就避免了R-FCN的feature map太大，且随着类别数的增加而增加。
在thin feature map的后面接ROI pooling得到的feature map也薄了，后面再接全连接层计算量也就小了，对比Faster RCNN后面接2048维的全连接层。

对于通用目标检测任务，作者做了两种设置。