框架

HyperNet论文笔记-优点总结
上图蓝底的方块是特征图

模型主要分五部分，Pre-trained CNN model、Hyper Feature Extraction、RoI Pooling、region proposal generation、object detection。
一般来说，浅层网络拥有比较多的位置和细节信息，更能体现一些小物体的信息，但是缺乏丰富的特征，识别率不高，不能保证recall。而深层网络有很丰富分特征信息，识别率高，可以保证高recall，但是缺乏细节和位置信息，使得定位精度不高。HyperNet方法认为单独一个feature map层的特征不足以覆盖RoI的全部特性，由此，HyperNet产生了。
相比与Faster-RCNN，HyperNet更擅长处理小物体，在高IOU时更有优势，mAP提高3.1%。但多尺度也必然降低速度。其快速模型HyperNet-SP速度与Faster-RCNN相同，VOC上mAP仅提高1.6%。但注意到其应用的跳层特征（skip layer feature）在处理小物体检测中已经在ION等多次被用到，成为了一种常用的有效手段。

Pre-trained CNN model

当时用的VGGnet,检测时只用了前5层conv，三个pool层，在第一、第三和第五层对应的下采样率是2、4、8.

Hyper Feature Extraction

跳层提取特征。分别取第一、第三、第五层之后的特征、分别对应浅、中、深三层，既能获取高层语义，又可以得到低层高分辨率的位置信息。提高小目标检测效果。为了能够拼接这三个特征。需要变形到相同的尺寸，具体是对浅层的特征进行最大值池化，对深层的特征进行反卷积，使得二者的分辨率都为原图大小的1/4，与中层的分辨率相同，方便进行融合。得到3个特征图后，再接一个5×5的卷积以减少特征通道数，得到通道数为42的特征。
HyperNet论文笔记-优点总结
在拼接之前，需要先经过一个LRN（Local Response Normalization）处理，用LRN归一化多个feature maps。LRN是必要的，因为不同层的feature resolution 不同，如果不做正则norm大的feature会压制住norm小的feature。

region proposal generation-加速技巧

这些需要介绍一个加速技巧，由于提前使用了RoI Pooling，导致众多候选框特征都要经过一遍此 Pooling层，计算量较大，70%时间主要在RPG，为了加速，可以在Pooling前使用一个3×3卷积降低通道数为4。同时对每个建议框运算更加简洁，从CONV->FC到直接FC，代价就是降低了2%MAP，提高了40%的速度。

object detection

实现目标检测最简单的方法就是用FC-Dropout-FC-Dropout这样的层次设计。在此基础上，我们做了两个改动
1，在FC前添加了一个3x3x63的卷积层增强分类。这样做也可以降低特征的维度，有利于下面的计算。
2，dropout ratio由0.5改为0.25。发现这样更高效。

总结

总体来看，HyperNet最大的特点还是提出了多层融合的特征，因此，其检测小物体的能力更加出色，并且由于特征图分辨率较大，物体的定位也更精准。此外，由于其出色的特征提取，HyperNet的Proposal 的质量很高，前100个Proposal就可以实现97%的召回率。
值得注意，HyperNet使用到了反卷积来实现上采样，以扩大尺寸。通常来讲，上采样可以有3种实现方法：双线性插值、反池化（Unpooling）与反卷积。反卷积也叫转置卷积，但并非正常卷积的完全可逆过程。具体实现过程是，先按照一定的比例在特征图上补充0，然后旋转卷积核，再进行正向的卷积。反卷积方法经常被用在图像分割中，以扩大特征图尺寸。

HyperNet论文笔记-优点总结

HyperNet论文笔记

框架

Pre-trained CNN model

Hyper Feature Extraction

region proposal generation-加速技巧

object detection

总结

相关推荐