行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

Yansong Tang1,2,3,∗ Yi Tian1,∗ Jiwen Lu1,2,3 Peiyang Li1 Jie Zhou1,2,3
CVPR2018
在这篇论文中，我们提出了一个在基于骨骼视频做行为识别的深度渐进式强化学习方法（DPRL），目的是为了识别动作而提取最具信息量的帧，然后去除不明确的帧。因为为每一个视频选择最具代表性得帧是多种多样的，我们构建了帧选择模型是一个渐进的过程通过深度强化学习。在我们逐渐调整选择帧的时候主要考虑两个重要的因素：（1）被选择帧得质量（2）是被选择的帧和整个视频之间的关系。而且，考虑到人类身体固有的拓扑结构是基于图的架构，这些顶点和边缘分别代表了铰接头和硬骨，我们应用了基于图得卷积神经网络来刻画动作识别时这些关节的依赖。我们的方法在三个广泛使用的数据集上实现了很好的效果。

先说一下基本概念。最初的时候我看这篇论文好多没搞明白就查了一些资料，后来看了基本概念在看论文就明白了
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

1、绪论

行为识别在计算机视觉中是一个重要的研究方向，它有着广泛得应用，比如视频监控，人机交互等等。和传统的RGB视频相比，基于骨骼得序列包含了主要的身体关节的紧凑的3D位置，这对于视角，身体尺寸以及运动速度得多样性很健壮。因此，基于骨骼的动作识别在近几年来吸引了越来越多得注意。
随着深度传感器（比如Kinect）的越来越划算以及姿态识别算法的发展，基于骨骼的数据数量发展迅速。因此基于数据驱动的方法已经被逐渐提出为了基于骨骼得动作识别，通过训练像循环神经网络（RNN）以及卷积神经网络（CNN）的深度模型。基于RNN的模型有建模时序依赖的能力，但是实际上训练堆叠的RNN这是很困难的。另一方面，基于CNN的莫模型，刻画了相邻帧在底层的关系以及在高层的长期依赖，是更加有效的并且近来取得了很有前景的性能。然而，大多数的基于CNN的方法在基于骨骼的动作识别中是把一个序列的所有帧视为同等重要，这使得不能聚焦于最具代表性的帧。以踢这个动作的视频作为例子，在一些帧里面这个目标对象时直立的站着，同时其他的帧这个目标对象踢出了腿。后者在识别这个动作时是更具有信息量的。
为了在一个序列中寻找最具代表性的帧，我们提出了一个深度渐进式的强化学习方法（DPRL）。因为为每一个视频选择最具代表性得帧是多种多样的，我们构建了帧选择模型是一个渐进的过程。具体来说，给定初始化的帧，这些帧是从输入序列中统一采样的，我们通过两个重要的因素逐渐调整被选择的帧在每一个状态下。一个因素是被选择帧对于动作识别的判别能力，另一个是选择的帧和整个动作序列的的关系。最终选择的帧被视为视频的提取，被应用到识别动作。并且，大多数的基于CNN的方法采用了欧式结构来对铰接关节进行建模，忽视了人类身体的固有拓扑。为了解决这个问题，我们把关节还有他们的依赖作为一张图来建模。图的顶点包含了身体关节的3维坐标，邻接矩阵刻画了他们的关系。既然关节的图是在一个欧几里得的空间，我们利用了基于图的卷积神经网络（GCNN）来学习关节之间的空间依赖。我们评估了我们证明了我们方法的有效性的方法在三个基于骨骼的动作识别数据集。这些竞争性的实验结果证明了我们方法的有效性。

2、相关工作

基于骨骼的动作识别：近几年来有很多基于骨骼的动作识别方法，它们可以分为两类：基于手工特征还有基于深度学习特征。对于第一类，

Vemulapalli etal. represented the human skeleton as a point in the
Lie group, and implemented temporal modelling and classification in
the Lie algebra. Weng et al. [8] extended Naive-Bayes Nearest-Neighbor
(NBNN) method [25] to Spatio-Temporal-NBNN, and employed the
stage-to-class distance to classify actions. Koniusz et al. [26]
presented two kernel-based tensor representations to capture the
compatibility between two action sequences and the dynamic information
of a single action. Wang et al. [5] proposed an undirected complete
graph representation, and presented a new graph kernel to measure the
similarity between graphs. However, the graph representation in [5] is
used to model the video, while the graph in our work is adopted to
capture the topology of human body。

基于深度学习的方法可以被分为基于CNN的模型和基于RNN的模型。
深度强化学习：强化学习来源于在心理上还有神经学的理解人类在环境中怎样学习优化他们的行为。它可以被数学公式化为马尔科夫决策过程（MDP）。当一个人被推广到一个代理，行为被推广为一组动作，一个典型的强化学习问题可以被表述为一个代理通过最大化它从一个环境得到的数值奖励来优化它的行为策略。。。。然而，在每一个工作中，动作影响只是一个单帧。更具体的来说，取决于是否丢弃一个帧并且一步选择一个帧，然而我们一次调整所有被选择的帧。

3、方法

行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
图1描述了我们提出的方法的管道。具体来说，**在我们的方法中有两个子网络：帧提取网络（FDNet）还有基于图的卷积神经网络（GCNN）。**FDNet目的是使用深度渐进式强化学习方法从输入序列中提取一定固定数量的关键帧。然后我们组织FDNet的输出输入到一个基于人体关节依赖的图结构，然后把他们喂入GCNN来识别动作标签。因为在训练过程中GCNN为FDNet提基于图的表示学习

图的构建：
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

因为人体可以被认为是一个由铰接的关节和刚性骨骼组成的铰接系统，它本质上是一个基于图形的结构。
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

基于图的架构：
GCNN可以被视为传统CNN的修改，目的是为了处理在非欧几里得空间的基于图的数据。
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
基于图的卷积：
基于图的卷积层是这个网络中的核心模块。

3.2、深度渐进式强化学习

在骨骼视频的动作识别任务中，并不是每一个帧都是相等的时序重要性。这是我们基于强化学习主义的应用的关键点。关键帧的选择被描述为一个马尔科夫决策过程（MDP），基于在每一次迭代过程中使用强化学习提取帧。图三提供了一个这个过程的示意图，在图四中基于FDNet实现。和提共奖赏还有更新它自身状态的环境交互的代理，通过最大化总共的折扣目标来调整选择的帧来进行学习，最终给出给定数量m的最容易区分的帧。MDP的状态，动作还有奖赏在下面详细说明。
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

3.3、GCNN和FDNet的结合

对于所有在训练集中基于骨骼的视频，我们首先均匀取样帧来获得在固定尺寸的序列。这些序列被用来训练GCNN来刻画在空间域中的关节依赖。之后，我们固定GCNN的参数来训练FDNet还有更新每一个在时间域上对每一个视频所选择的帧，这被用来改善GCNN。这两个模型互相促进对方，GCNN提供为FDNet提供奖赏，FDNet选择关键帧用来改善GCNN。GCNN越好，更准确的奖赏将会被提供。选择的帧质量越高，GCNN就可以更好的被改善。在测试时，每一个视频经过FDNet来产生它的具有信息帧的对应序列，然后最终将发送到GCNN来提供动作标签。

4、实验

我们分析了我们的实验在三个广泛使用的数据集上来评估我们提出的DPRL方法，并且用它和顶尖的基于骨架的动作识别方法以及基线方法做比较。接下来描述实验和结果的详情。
4.1 数据和实验设置

NTU+RGBD数据集：这是目前动作识别最大的数据集，有56K序列和4百万帧。这个数据集捕捉了40个不同的人类目标对象还有60类动作。我们使用25个主要身体关节的3维骨架数据.benchmark评价包括目标交叉（CS）以及视角交叉（CV）设置。在目标交叉评估中，来自20个对象的40320个样例被用来训练，剩下的16540个样例被用来测试。在视角交叉评估中，相机2和相机3捕获的37920个样例被用来训练，剩下的来自相机1的18960个样例被用来测试。
SYSU-3D Dataset(SYSU):SYSU-3D数据集包括480个序列还有被40个人展现的12个不同的动作。20个关节的3维坐标被视频序列的每一帧所联系。我们应用了被20个人表现的视频进行训练，剩下的20个人刻画得视频序列用来测试。我们采用了30倍的交叉验证显示在这个数据集上的平均准确率。
UT-Kinect 数据集：这个数据集包括200个骨骼序列，每一帧有20个骨架关节。有10种类型的动作，每一个动作都是被10个目标对象展现两次。我们采用leave-one-out交叉验证策略在这个数据集上评估我们的方法。
Baseline方法：
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
**实现细节：**我们提出的方法是在tensorflow还有Keras工具包上实现的，网络架构是建立在英伟达GTX1080GPU上。这两个子网络都是从头训练的。对于GCNN，我们选择ELUs作为**函数，设置丢弃率为0.5.基于图的卷积层的核尺寸被设置为5，批量大小对于NTU,SYSU,UT分别设置为64，16，8。在构建邻接权重矩阵时，我们设置 α = 5 and β = 1,这突出了内部依赖保留了外在依赖。我们使用Adam初始化学习率〖10〗^(-3)来训练整个网络.为了处理在NTU数据集上两个人的情况，我们采用了最大输出方案。我们在预训练时对骨架数据不执行任何旋转以及正则化处理。
FDNet模型，如图四显示的结构，我们设置丢弃率为0.5，选择ReLUs作为**函数，使用Adam优化器来训练FDNet使用学习率为10-5.
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
4.2、在NTU+RGBD数据集上的结果
在NTU数据集上的结果显示，我们的方法在CS和CV上分别取得了83.5%和89.8的结果。

和当前现有方法的对比：表1显示了和目前现有方法的对比结果，我们可以看到，我们的方法优于其他的目前现有的方法除了LSTM-CNN方法。这是因为结合了3层LSTM以及7层的CNN可以达到更高的表现，但是我们的模型只要求训练两个基于CNN的模型，并且很容易实现。和 soft attention model 相比，我们的方法实现了10.1%（CS）和8.6%（CV）改进。
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
**在DPRL的分析：**我们分析了图5帧选择的结果。如前所述，我们的关键见解是这些在一个给定的视频中的帧的不同时序重要性可以被逐渐估计通过深度强化学习。因此，在视频的高潮部分，被选择的帧应该比琐碎的帧更加频繁。
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

并且，图6展示了DPRL训练的过程，水平轴是训练epoch的数量，垂直轴代表阳性率。在一个迭代渐进提取的过程中，一个视频的预测可以从不正确到正确，这叫做一个阳性结果，相反的叫做阴性结果
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
图6论证了我们渐进提取方法的有效性。典型的，有将近3000个阳性结果每一次epoch

4.3、在SYSU-3D数据集上的结果
我们比较了我们的方法和目前已有的基于骨骼动作识别的方法，在图2表示
行为识别论文阅读（1）——Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
4.4、在UT-Kinect数据集上的结果
比较结果如表3表示

5、结论

在这篇论文中，我们提出了一个深度渐进式强化学习方法为了动作识别基于骨架视频，目的是找出输入序列中最具信息量的帧。而且，我们应用了一个基于图的深度学习模型用来刻画在人类关节中的内在和外在依赖。我们的方法在广泛使用的数据集NTU,SYSU,和UT数据集上实现了很有竞争力的表现。未来，我们的方法很有希望应用到相关的计算机视觉任务上比如视频摘要和事件检测。此外，我们的GCNN为图邻接矩阵采用了手工参数，基于学习的方法来设计权重是很值得必要的