【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation

项目地址：https://ilovepose.github.io/coco/

论文总结

本文方法名为DARK，其提出一种编码和解码的方法，使得坐标到heatmap（用于训练）和heatmap到坐标（用于测试）能更加准确的表达。

论文中表达DARK可以减轻网络输入分辨率变小的损失（从384288到256192到128*96）；

论文内容

坐标解码

如果训练的模型效果好的话，网络预测的heatmap会与label同分布，即heatmap会如下公式所示，其中 $x$ 是heatmap中的预测元素坐标； $\mu$ 是高斯核中的中心坐标，即估计的keypoint位置；协方差 $\sum$ 是一个对角矩阵， $\sum = \left[ \begin{matrix} \sigma^2 & 0 \\ 0 & \sigma^2 \end{matrix} \right]$

【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation

利用对数似然优化原则，可以将上述公式使用对数转换，来推测最大值位置：

$\mu$ 是我们所需要预测的关键点位置，由于其是极值，则一阶导数为：

在 $\mu$ 上使用二阶泰勒公式，其中 $m$ 为最大值：

最后就得到了我们所想要预测的关键点位置坐标：

上述推导是基于预测的heatmap是一个理想的高斯分布的情况下的，现实情况下预测的heatmap会在最大值附近出现多个峰值，这对上述的decode方法会产生负面影响，所以因此要进行heatmap的处理。文中使用高斯核对heatmap进行预处理，来平滑多个峰值。高斯核的kernel_size一般与训练时的kernel_size对应。

所以，DARK的decoding分为三步：