深度学习: 从 Selective Search 到 RPN

Selective Search

具体参见我的另一篇博客：Selective Search (选择搜索)，简而言之就是，Selective Search 太low太低效。

把生成 RP（Region Proposal，也即 RoI）这种事情也交给了神经网络。

RPN的本质是 “ 基于滑窗的无类别obejct检测器 ” :
深度学习: 从 Selective Search 到 RPN

Note：

只有在train时，cls+reg才能得到强监督信息(来源于ground truth)。即ground truth会告诉cls+reg结构，哪些才是真的前景，从而引导cls+reg结构学得正确区分前后景的能力；在reference阶段，就要靠cls+reg自力更生了。
在train阶段，会输出约2000个proposal，但只会抽取其中256个proposal来训练RPN的cls+reg结构；到了reference阶段，则直接输出最高score的300个proposal。此时由于没有了监督信息，所有RPN 并不知道这些proposal是否为前景，整个过程只是惯性地推送一波无tag的proposal给后面的Fast R-CNN。
RPN的运用使得region proposal的额外开销就只有一个两层网络。

Faster R-CNN、Mask R-CNN 即采用 RPN 。

在FPN被提出之后，RPN还可以借助FPN来输入多种size下的feature map，这样大大降低了对小物体的漏检率。