Learning Delicate Local Representations for Multi-Person Pose Estimation

https://blog.****.net/murdock_c/article/details/104804038?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242

方法
RSB：
首先看RSN网络，RSN网络中是由N个RSB串联组成，在RSB中，所有的featuremap level都是相同的，所以在RSB中执行的都是intra-level feature fusion。RSB具体来说，对于属于的一个feature，会分成5个branch（类似NIN结构），记为 f i , i = 1 , 2 , 3 , 4 f_{i}, i = 1,2,3,4 fi,i=1,2,3,4和一个Identity connection branch（和reset中的一样），每个 f i f_{i} fi对应的产生一个 y i y_{i} yi。为啥这个网络叫RSN呢，因为从 f 1 f_{1} f1到 f 4 f_{4} f4，里面的3x3卷积的数量是递增的，就像一步步在增加一样，所以称之为Residual Steps Network。
这个RSB结构为啥有用，首先看下RSB中每个branch的输出 y i y_{i} yi对应的receptive fields（假设输入时RF=1）： Learning Delicate Local Representations for Multi-Person Pose Estimation
具体分析下， f 1 f_{1} f1时，只有一个3x3的卷积就得到了 y 1 y_{1} y1，所以 y ( 1 , 1 ) = 3 y_{(1,1)} = 3 y(1,1)=3。 f 2 f_{2} f2时有2个3x3卷积，从 F i g 2. ( c ) Fig 2.(c) Fig2.(c)中可以看到， y ( 2 , 1 ) y_{(2,1)} y(2,1)是由 y ( 1 , 1 ) y_{(1,1)} y(1,1)先和1x1卷积后的结果element-wise sum之后再通过一个3x3卷积得到，只考虑branch f 2 f_{2} f2的RF，RF y ( 2 , 1 ) = 3 y_{(2,1)} = 3 y(2,1)=3，但加入了 y ( 1 , 1 ) y_{(1,1)} y(1,1)之后，相当于2个3x3了，所以其RF=5，所以 y ( 2 , 1 ) = ( 3 , 5 ) y_{(2,1)} = (3,5) y(2,1)=(3,5)，余下的同理。从Table 1中可以看到，虽然RSB中所有的feature都是在同一个level上，但不同branch表达的感受野大小不一样，如Table 2和其它模型相比，RSB可以表达的感受野更宽，更深，这也是RSB为啥效果会这么好的原因，因为它十分有效的利用了intra-level之间的信息，从而让模型的location更准确。

Learning Delicate Local Representations for Multi-Person Pose Estimation

相关推荐