Learning Delicate Local Representations for Multi-Person Pose Estimation

https://blog.csdn.net/murdock_c/article/details/104804038?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242

方法
RSB:
首先看RSN网络,RSN网络中是由N个RSB串联组成,在RSB中,所有的featuremap level都是相同的,所以在RSB中执行的都是intra-level feature fusion。RSB具体来说,对于属于的一个feature,会分成5个branch(类似NIN结构),记为 f i , i = 1 , 2 , 3 , 4 f_{i}, i = 1,2,3,4 fi​,i=1,2,3,4和一个Identity connection branch(和reset中的一样),每个 f i f_{i} fi​对应的产生一个 y i y_{i} yi​。为啥这个网络叫RSN呢,因为从 f 1 f_{1} f1​到 f 4 f_{4} f4​,里面的3x3卷积的数量是递增的,就像一步步在增加一样,所以称之为Residual Steps Network
这个RSB结构为啥有用,首先看下RSB中每个branch的输出 y i y_{i} yi​对应的receptive fields(假设输入时RF=1):Learning Delicate Local Representations for Multi-Person Pose Estimation
具体分析下, f 1 f_{1} f1​时,只有一个3x3的卷积就得到了 y 1 y_{1} y1​,所以 y ( 1 , 1 ) = 3 y_{(1,1)} = 3 y(1,1)​=3。 f 2 f_{2} f2​时有2个3x3卷积,从 F i g 2. ( c ) Fig 2.(c) Fig2.(c)中可以看到, y ( 2 , 1 ) y_{(2,1)} y(2,1)​是由 y ( 1 , 1 ) y_{(1,1)} y(1,1)​先和1x1卷积后的结果element-wise sum之后再通过一个3x3卷积得到,只考虑branch f 2 f_{2} f2​的RF,RF y ( 2 , 1 ) = 3 y_{(2,1)} = 3 y(2,1)​=3,但加入了 y ( 1 , 1 ) y_{(1,1)} y(1,1)​之后,相当于2个3x3了,所以其RF=5,所以 y ( 2 , 1 ) = ( 3 , 5 ) y_{(2,1)} = (3,5) y(2,1)​=(3,5),余下的同理。从Table 1中可以看到,虽然RSB中所有的feature都是在同一个level上,但不同branch表达的感受野大小不一样,如Table 2和其它模型相比,RSB可以表达的感受野更宽,更深,这也是RSB为啥效果会这么好的原因,因为它十分有效的利用了intra-level之间的信息,从而让模型的location更准确。

 

Learning Delicate Local Representations for Multi-Person Pose Estimation