深度学习: 从 Selective Search 到 RPN
Selective Search
具体参见我的另一篇博客:Selective Search (选择搜索),简而言之就是,Selective Search 太low太低效。
RPN
把生成 RP(Region Proposal,也即 RoI)这种事情也交给了神经网络。
RPN的本质是 “ 基于滑窗的无类别obejct检测器 ” :
Note:
- 只有在train时,cls+reg才能得到强监督信息(来源于ground truth)。即ground truth会告诉cls+reg结构,哪些才是真的前景,从而引导cls+reg结构学得正确区分前后景的能力;在reference阶段,就要靠cls+reg自力更生了。
- 在train阶段,会输出约2000个proposal,但只会抽取其中256个proposal来训练RPN的cls+reg结构;到了reference阶段,则直接输出最高score的300个proposal。此时由于没有了监督信息,所有RPN 并不知道这些proposal是否为前景,整个过程只是惯性地推送一波无tag的proposal给后面的Fast R-CNN。
- RPN的运用使得region proposal的额外开销就只有一个两层网络。
Faster R-CNN、Mask R-CNN 即采用 RPN 。
在FPN被提出之后,RPN还可以借助FPN来输入多种size下的feature map,这样大大降低了对小物体的漏检率。