多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild

数据集:http://hcp.sysu.edu.cn/lip 
code: https://github.com/Engineering-Course/LIP_SSL
做人体部件分割,构建了一个新的数据库“LIP”,包含19个语义标记。在训练中融入结构信息,提升分割效果。 
人体分割具体应用:行人再认证,行为分析等。 
目前三个人体部件数据库ATR,Pascal-Person-Part和LIP复杂度比较: 
多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild

使用目前主流分割方法FCN-8S,SegNet,DeepLabV2和Attention机制在LIP数据库上的结果如下: 
多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild

目前方法主要的问题: 
1.背部图像左右胳膊容易混淆 
2.头部在图像中不存在时,效果最差,说明头部是人体分割的重要线索。 
3.对小物体检测不好,如鞋子

Self-supervised Structure-sensitive Learning 
论文提出的方法,使用人体结构指导训练,定义9个连接点建立姿态结构,分别是head, upper body, lower body, left arm,right arm, left leg, right leg, left shoe and right shoe区域的中心点,网络结构如下图所示。 
多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild 
对于每个分解的结果和对应的真值,获取连接点作为热度图,使用Euclidean距离评价生成的结构。之后使用连接点结构损失加权像素级分割损失,即structure-sensitive损失。 
即, 
多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild 
LStructure=LJointLParsing

实验结果 
与其他方法对比的结果图,可以分割出较小的物体,如鞋子,也可以解决左右胳膊混淆的问题。 
多人部件解析--Towards Real World Human Parsing: Multiple-Human Parsing in the Wild