RPN
这篇拉通的讲了faster r-cnn:https://www.zhihu.com/collection/595537451
这篇细讲了RPN的细节:https://blog.****.net/ying86615791/article/details/72788414
强调一点,就是下图中的那个intermediate的作用。
原文中提到的是一个小网络以滑动窗口的形式划过最后一个卷积层输出的feature maps,并且这个小的network的窗口空间大小是nn的。
结合图形我的理解是RPN的网络是以一个33256的卷积层开始的,之后跟了两个小的卷积层的分支,一个是cls用于判定anchor是positive还是negative,另一个reg用于模型回归,模型回归的目标是真实boxes与anchor boxes之间坐标的偏置。将偏置和anchor boxes的坐标带入预先设定的公式中,就得到了最终预测的boxes坐标。
所以RPN的输入可以理解为feature map(mn大小)上的一个33的小区域,每次RPN以滑动窗口的形式从上面的mn的特征图上依次选取33的区域作为输入,用来对mn的特征图上的以每个像素点为中心的33区域进一步提取特征,在特征图边界的点提取时做padding,进一步提取后得到的特征再由后面两个分支分别做11卷积分别得到2k的scores和4k的coordinates。