HyperNet论文笔记-优点总结

框架

HyperNet论文笔记-优点总结
上图蓝底的方块是特征图
HyperNet论文笔记-优点总结
模型主要分五部分,Pre-trained CNN model、Hyper Feature Extraction、RoI Pooling、region proposal generation、object detection。
一般来说,浅层网络拥有比较多的位置和细节信息,更能体现一些小物体的信息,但是缺乏丰富的特征,识别率不高,不能保证recall。而深层网络有很丰富分特征信息,识别率高,可以保证高recall,但是缺乏细节和位置信息,使得定位精度不高。HyperNet方法认为单独一个feature map层的 特征不足以覆盖RoI的全部特性,由此,HyperNet产生了。
相比与Faster-RCNN,HyperNet更擅长处理小物体,在高IOU时更有优势,mAP提高3.1%。但多尺度也必然降低速度。其快速模型HyperNet-SP速度与Faster-RCNN相同,VOC上mAP仅提高1.6%。但注意到其应用的跳层特征(skip layer feature)在处理小物体检测中已经在ION等多次被用到,成为了一种常用的有效手段。

Pre-trained CNN model

当时用的VGGnet,检测时只用了前5层conv,三个pool层,在第一、第三和第五层对应的下采样率是2、4、8.

Hyper Feature Extraction

跳层提取特征。分别取第一、第三、第五层之后的特征、分别对应浅、中、深三层,既能获取高层语义,又可以得到低层高分辨率的位置信息。提高小目标检测效果。为了能够拼接这三个特征。需要变形到相同的尺寸,具体是对浅层的特征进行最大值池化, 对深层的特征进行反卷积,使得二者的分辨率都为原图大小的1/4,与 中层的分辨率相同,方便进行融合。得到3个特征图后,再接一个5×5的 卷积以减少特征通道数,得到通道数为42的特征。
HyperNet论文笔记-优点总结
在拼接之前,需要先经过一个LRN(Local Response Normalization)处理,用LRN归一化多个feature maps。LRN是必要的,因为不同层的feature resolution 不同,如果不做正则norm大的feature会压制住norm小的feature。

region proposal generation-加速技巧

这些需要介绍一个加速技巧,由于提前使用了RoI Pooling,导致众多候选框特征都要经过一遍此 Pooling层,计算量较大,70%时间主要在RPG,为了加速,可以在Pooling前使用一个3×3卷积 降低通道数为4。同时对每个建议框运算更加简洁,从CONV->FC到直接FC,代价就是降低了2%MAP,提高了40%的速度。

object detection

实现目标检测最简单的方法就是用FC-Dropout-FC-Dropout这样的层次设计。在此基础上,我们做了两个改动
1,在FC前添加了一个3x3x63的卷积层增强分类。这样做也可以降低特征的维度,有利于下面的计算。
2,dropout ratio由0.5改为0.25。发现这样更高效。

总结

总体来看,HyperNet最大的特点还是提出了多层融合的特征,因 此,其检测小物体的能力更加出色,并且由于特征图分辨率较大,物体 的定位也更精准。此外,由于其出色的特征提取,HyperNet的Proposal 的质量很高,前100个Proposal就可以实现97%的召回率。
值得注意,HyperNet使用到了反卷积来实现上采样,以扩大尺寸。 通常来讲,上采样可以有3种实现方法:双线性插值、反池化 (Unpooling)与反卷积。反卷积也叫转置卷积,但并非正常卷积的完 全可逆过程。具体实现过程是,先按照一定的比例在特征图上补充0, 然后旋转卷积核,再进行正向的卷积。反卷积方法经常被用在图像分割 中,以扩大特征图尺寸。