《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》读后感

1. 核心创新点:

1)SPP-Net主要是在前人的经典深层卷积网络的基础上用spp layers替换掉最后一个卷积层后面的池化层,达到可以针对不同大小的feature map 池化出相同大小的特征向量的功能,以作后续fc层的使用,从而可以达到imput 不同size 的图片进行训练(spp layer示意图)与测试:
《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》读后感

这里一个比较新的术语是spatial bin(最小单位的小格子),他们的数量会根据feature mao的大小调整大小,达到总数量不变,从而保证输出向量的固定大小。在原文中,每次epoach更换输入图片大小的时候,都需要调节一下他们的大小。

2)可以对整张图片只进行一次卷积操作提取特征,提高了目标识别中提取特征的速度,为one-stage检测方法的发展奠定了基础

3)文章中也定性得分析出测试图片的完整性对预测的准确率的提高有较大的影响

2.训练方式

文中为了发挥现有GPU实现框架的擅长于训练单一输入尺寸模型的优势,对不同尺寸的input采取分epoach轮流训练的策略(保留上一轮训得到的权重)

3测试模式及结果比较
我暂时了解到的测试模式有3种:
1:full view
整张图片等比例缩放到指定最短边长后,扔进去test,适合装备了spp layer层的网络,在论文中用作各个网络在单一尺寸训练尺寸和多尺寸训练的结果比较:
《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》读后感

2:10 crop(10-view predition)
在原文中用作经典(未被改动的网络)与配备了spp layer 的经典网络的结果比较:

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》读后感

从一张测试图片的原图(256*256)截取5个指定大小的pitch(中心与四周),进行水平反转,一共得出10个pitchs,然后扔进模型,在softmax后进行均值得出各类别的得分

3:1 crop
从中心截取到指定大小的pitch

4.对前部分的学习内容的深化
在阅读这个文章的时候我发现,该研究团队大量的借鉴前人的研究方法,尤其是以AlexNet的经典网络的测试方法(10-crop view,我还是第一次听到这种叫法,我查阅了互联网也找不到确切的解释,只能自己推断应该是指AlexNet论文中采用的测试方法),然后我回顾到AlexNet的文章,也发现了在AlexNet中已经运用了集成模型进行测试:

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》读后感

其中5CNNs就是集成了5个相似的模型的结果(softmax layer分布进行类打分的平均)进行测试,但是到底具有怎样性质的模型适合集成,也是一个值得我取研究学习的地方。

7CNNs*是在5CNNs的基础上集成了两个在前一数据集预训练过的模型

5.现阶段的读后感:
从这篇论文的学习可以感觉到我个人的科研学习的能力比较不足,还需要进一步加强(在大神面前感觉仍然还是个幼儿园水平),和该学科的学习具有较强的研究顺序性与灵活性,要理解这篇论文必须对前人的研究成果有初步的认识与理解,文中大量吸收借鉴前人的研究成果(尤其是一些术语)与研究(对比)方法对新提出的模型进行定量与定性分析,我认为这是最值得像我这种初学者最学习的地方。接下来我还需要围绕“目标检测”这一毕业设计课题,根据论文中的一些学习线索,如RCNN、overfeat、集成模型、预训练模型、特征**,等进行学习(条件允许的情况下尽可能理解与实现算法源代码),尽可能提高识别的准确率,同时期待日后加深对这篇论文的理解与学习。

何凯明的研究偏向于“站在巨人的肩膀上”,而且英语写作风格相对易懂。