Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

摘要

很多方法使用端到端的网络解决行人数属性识别问题，然而行人身体的结构信息没有得到很好的利用。因此，提出的PGDM方法包含了以下三点：1)从预训练的姿态估计模型中提取姿态知识的粗位姿估计;2)仅在图像层面监督下自适应定位信息图像区域的身体部位;3)结合基于部位特征的多特征融合进行属性识别。在推理阶段，文章将基于部分的特征和全局特征拼接在一起作为最后的预测。

网络结构

网络包括了Main Net和PGDM这两个部分。其中Main Net使用了caffe net的结构。
Main Net的损失函数为：
Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

PGDM模块

致力于探索行人身体结构的知识来协助行人属性识别，该模块包含有三个部分，包括姿态粗糙估计、自适应区域定位和基于区域的特征聚合。

姿态粗糙估计

行人属性识别的数据集是没有姿态注释的，为了将行人姿态估计知识迁移过来，文章在测试阶段将CPM网络嵌入到行人属性识别网络中。首先，用CPM网络在MPII和LSP数据集上经过了6个阶段的训练来生成14个行人姿态关键点和置信分数。其次将生成的姿态估计点作为粗糙的真值，训练一个回归网络来回归行人姿态。注意：姿态回归网络和区域回归网络的参数是共享的。采用带有姿态先验概率的smooth-L1损失，损失函数如下：

Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

其中 Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios
为第i个样本中第k个关键点的归一化姿态点，

是从原始CPM模型中第i个样本生成的第k个关键点置信分数。

自适应区域定位

姿态信息只是一系列的点，因此需要将点转化为具有丰富信息的区域，因此文章采用STN网络为每一个姿态点回归一个boundingbox进行区域提取。

基于区域的特征聚合

为了整合不同区域的高维度特征，为每个关键点相关的区域后连接独立的卷积神经网络，卷积神经网络的最后使用了256维的全连接层学习每个区域的特征，因此最后会得到3584（256*14）维的特征表示。基于学习到的聚合了多个区域的特征经过有L(L个属性)个输出的全连接层得到最后的输出。
最终优化的目标函数为：

Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

上面的三个参数分别为main net，PGDM和姿态回归网络的损失权重。

Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios

摘要

网络结构

PGDM模块

姿态粗糙估计

自适应区域定位

基于区域的特征聚合

相关推荐