2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals

1.技术背景

这篇使用RF信号,实现了对穿过墙壁或遮挡物的人的姿势的准确判断。准确实现对人体姿势的判断对于反恐监视、游戏等领域有很大的意义。人体姿势识别的问题可以看作是一个对人体关键点(头,脖子,肩膀,手臂,腿等关节点)定位的问题。以往的通过视觉系统来判断人体姿态有一个致命的弊端,那就是障碍物。后来通过无线信号来判断人体姿态取得了很大的进展,但是同一时刻只能跟踪一个肢体部位,不同的身体部位观察到的时间并不一致,因此只能生成对人体的一个粗略描述。要想实现对人体姿势的精确判断还是很有挑战的。

2.RF-Pose系统设计

2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals
Fig1. cross-modal teacher-student network

论文中提出的RF-pose系统是一种神经网络,利用神经网络分析RF无线信号来学习无线信号中携带的人体姿势信息,来实现准确的人体姿势识别。但是有来自两个方面的挑战:

(1)缺少用于训练的标签数据

(2)RF信号的的固有特征:低空间分辨率,镜面反射,以及与照片相比RF信号有不同的数据类型(复数)和视角(垂直和水平)

2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals
Fig2. 同步的RF heatmap和RGB 图片

为了解决缺少标签数据这个问题,论文中使用“跨模式”训练(将在一种数据模式中学到的知识转移到另一种数据模式中):

如图1所示,无线系统使用两组天线阵列接受RF信号:垂直阵列和水平阵列,水平阵列接受的是反射信号投影在平行于地面的的平面上的heatmap,垂直阵列接受的是反射信号投影于垂直于地面的平面上的heatmap,这两种heatmap均是二维的。将信号接收器与照相机在时间上保持同步,两组同步的数据:RF信号与RGB图片数据(如图2)作为RF-Pose系统的输入。整个系统又分为两个部分:处理照片的teacher网络和处理RF信号的student网络。teacher网络分析照相机拍摄的RGB图片输出对人体关键点预测的的置信图,teacher网络输出的置信图指导训练student网络,student网络输出从RF信号学习得来的关键点置信图。整个网络的训练目标是最小化teacher网络和student网络输出的两组置信图的差异,用二元交叉熵定义损失函数:

                                                           2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals

2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals2D skeleton——Through-Wall Human Pose Estimation Using Radio Signals表示置信图c中第(i,j)像素的置信分数。

由于RF信号的固有特征,在设计网络时也要考虑进去。RF的镜面反射是当无线信号波长大于物体表面粗糙度时发生的物理现象,此时物体就像镜子一样反射无线信号(而不是散射),此时无线信号有可能反射到信号接收器,也有可能反射远离接受器。因此,这时接收器接收到的信息是有缺失的,只是一部分人体关键点反射的信号。而且考虑到RF信号的低空间分辨率,一帧RF信号(一对垂直、水平heatmap)包含的信息不足以确定人体关键点的屙位置。所以,在设计网络时,不能只将一帧RF信号作为网络输入,将3.3s的连续RF信号作为输入(一共100帧),对每一帧输出其对应的置信图。

因为RF信号的数据记录的视角(垂直和水平投影)和图片数据的视角是不同的,为了让teacher网络更好的监督训练student网络,student网络要将数据信息从RF信号视角转换到图片视角。如图1所示,首先对原始空间的两组heatmap进行编码,然后再将其在通道上合并,再对其解码成图片视角。因为RF信号的数据是复数,因此RF heatmap是用两个实数channel来分别存储数据的实部和虚部。

3.关键点联合

论文中是使用自下而上式的人体姿势识别方式:首先检测出所有关键点的位置,然后将属于同一个人的关键点相关联起来再识别人体姿势。RF-Pose系统输出了所有关键点的位置,还需要将关键点联合起来。首先对关键点置信度图执行非最大抑制,以获得关键点候选的离散峰值,然后使用欧几里德距离作为两个候选的权重(在学习过的关键点置信度图上逐帧进行关联)。