(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras

新型事件相机有关的论文解读之:

Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras

关于事件相机:
事件相机是一个新型的类脑相机,是一个待开发的大领域。希望通过我的分享,能够有更多人来研究并将它更好地运用在我们的生活中~
对于事件相机还不了解的朋友们可以看我这一系列的另一篇博客:事件相机(Event Camera)及相关研究简介——新一代相机?新的计算机视觉领域?

本篇论文地址:https://cse.buffalo.edu/~jsyuan/papers/2019/WACV_2019_Qinyi.pd
本篇论文是发表在2019WACV上的一篇论文,使用事件相机来做姿态识别。
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras

写在前面

在事件相机的视觉领域,与传统的RGB相比,最大的挑战无疑就是如何处理异步的事件信息。我们都知道对于传统的相机提取信息我们只需对图片进行卷积操作,而图片即是矩阵,所以实质是矩阵的乘法运算,这些操作对于我们来说比较熟悉,而当一张图片已经无法可视化,回传的信息也从矩阵变成异步的四元组,我们又该如何处理这些信息,提取有用信息呢?
这个问题我们称为事件的表示(representation),在很多论文中,人们给过很多的表示方法。一般都是将一段时间里的事件进行某种操作使其变成一张图片而使用经典CNN网络处理。可以参考论文End-to-End Learning of Representations for Asynchronous Event-Based Data,这篇文章中对比了不同的事件输入方式以及其性能差别。
而有一种思路可以直接输入事件来进行处理,这就是这篇论文的思路,利用类似PointNet的思想,将事件点看做三维时空中的点,提取点间特征。

PointNet

我们先来简要的介绍一下PointNet,该网络是用来做3D点云识别任务的。由于点云就是很多点的集合,在电脑里我们看到的也只是一些三维的向量,但点和点之间的位置关系反映了这个物体的性质,所以识别点云时,需要做的就是提取点与点之间的关系,同时,应保证输出结果不随输入顺序而变化。PointNet结构如下:
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
如图,蓝色的部分为分类任务,黄色的部分为分割任务。输入的是n个三维的点,通过STN与MLP的堆叠提取为高维的特征,但这里每个特征对应的都是该点的,然后通过MaxPool层提取全局特征,这也保证了输入顺序不影响输出结果,通过对global feature的学习,来进行分类任务。而对于分割,则将全面所得到的局部特征与全局信息拼接,然后通过MLP学习,对应每一点的输出类别。

PointNet++

在PointNet的基础上,人们发现,这样的直接MaxPool提取全局特征的方式未免过于粗暴,丢失了很多有用信息。所以,研究人员们开发出PointNet++,其实质就是先小规模地使用PointNet,然后一级一级地减少特征量达到MaxPool的目的。网络结构如图:
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
在所有的点中通过最远间距的方法先找到一些特征点,每个特征点周围半径r内的点都看做属于这个点。然后在每个点对应的小区域上执行PointNet,在每个区域就得到了一个高维特征,然后在这个高维特征域再选择更少的特征点,如此执行下去,直至特征点数很少,特征域维度很高,这时已经提取到了全局的特征,然后通过全连接网络可以做分类任务,通过一层一层地解码可以做分割任务。

本篇论文

本篇论文的思路就是直接将PointNet用在事件信息上,因为如果将像素平面看做空间,再加一个时间轴,将事件画到这个三维时空坐标系里,可以得到如下图的event stream,其中包含了很多信息,也是点与点之间的关系,所以作者直接将PointNet的输入改为事件的x,y,t。
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
如图,用于手势识别的网络结构如下:
由于不需要STN等复杂结构,直接将输入信息输入MLP中,然后接后续的分类网络。
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
之后,作者仿照PointNet++的思路,能够进一步提高分类准确率,如图:
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
最后,作者提出,对于视频识别,如果能用滑动窗口,窗口之间有相互重叠的部分,效果将会更好,如图:
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras
最终,通过测试,网络效果还不错,如下:
(新型事件相机有关的论文解读)Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras

总结

本篇论文较为简单,但其将PointNet引入处理的思路非常好,由于事件信息与传统RGB图片不同,用CNN的方式提取特征未免有些生硬。事件的特征提取需要一种新的方式,不同于CNN,来详尽地找到完成任务所需要的信息。
在之后我将解读另一篇使用PointNet的论文,来帮助大家感受PointNet用在事件相机视觉领域的好处与优点。