Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

我们提出了一种高效检测图像中多人二维姿势的方法。该方法使用一种非参数表示法，我们称之为Part Affinity Fields(PAFs)，来学习将身体部位与图像中的个人联系起来。该架构对全局上下文进行编码，允许一个贪婪的自下而上的解析步骤，以保持高精度，同时实现实时性能。无论图像中的人数有多少。该架构通过同一顺序预测过程的两个分支来联合学习局部位置及其关联。我们的方法在首届COCO 2016关键点挑战赛中名列第一，并且在MPII多人基准上的性能和效率都大大超过了之前的最先进结果。

1. Introduction

人体二维姿势估计主要任务是寻找个人的身体部位[8,4,3,21,33,13,25,31,6,24]。推断图像中多人的姿势。首先，每张图像可能包含未知数量的人，这些人可能在任何地方且具有任意规模。第二，由于接触、遮挡和肢体衔接，人与人之间的互动会引起复杂的空间干扰，使得部分人的关联变得困难。第三，运行时的复杂度往往随着图像中人的数量而增长，使得实时性能成为挑战。

一个常见的方法[23，9，27，12，19]是采用一个person检测器，并对每个检测进行单人姿势估计。这些自上而下的方法直接利用现有的单人姿势估计技术[17、31、18、28、29、7、30、5、6、20]，但却受到早期技术的影响：如果person检测器发生故障（当人与人之间靠的很近时很容易发生这种情况），则无法进行姿态估计。此外，这些自上而下的方法的运行时间与人的数量成正比：对于每一次检测，都要运行一次单人姿势估计器，人越多，计算成本越大。相比之下，自下而上的方法很有吸引力，因为它们提供了鲁棒性，并且有可能将运行时的复杂性与图像中的人数脱钩。然而，自下而上的方法并不直接使用来自其他身体部位和其他人的全局上下文线索。实际上，之前的自下而上方法[22，11]并没有得到效率的提升，因为最终的关键点之间的匹配需要昂贵的全局推理。然而，在一个完全连接的图上求解整数线性编程问题是一个NP-hard问题，平均处理时间在数小时左右。Insafutdinov等人[11]在[22]的基础上，基于ResNet[10]和图像相关的pairwise scores，采用了更强的检测器，极大地提高了运行时间，但该方法每张图像仍需要数分钟的时间。

在本文中，我们提出了一种高效的多人姿势估计方法，在多个公共基准上具有最先进的准确性。我们提出了第一个通过Part Affinity Fields（PAFs）自下而上的关联得分表示，PAFs是一组二维向量场，在图像域上编码肢体的位置和方向。我们证明，同时推断这些自下而上的检测和关联的表示，可以很好地编码全局上下文，让使用贪婪算法的解析获得高质量的结果，而计算成本只是一小部分。我们已经公开发布了完全可复现的代码，提出了第一个用于多人2D姿势检测的实时系统。