行为识别模型探索

在施工场景中,一些违规操作总是会造成潜在的安全事故等。目前的违规防范主要采用人盯人的方式,这种传统方式主观性强,还造成严重的人力资源浪费。得益于计算机视觉和人工自能的发展,目前正在探索基于人工智能的异常行为识别模型研究,希望研究成果能切实的应用于真实的场景,解放人力成本。说到行为识别模型,在深度学习之前,iDT是最为经典的一种方法,利用光流场获取视频序列的一些轨迹,再沿着轨迹去提取类似HoF和HoG特征并进一步通过Fisher Vector编码,最后送入SVM进行分类。目前深度学习是主流方法,解决思路有两大类:抽取时空特征进行识别,主要有3个流派:CNN-LSTM、双流法和C3D,如下图所示;另一种是抽取骨架信息再训练的姿态估计方法。
行为识别模型探索
双流法的效果较好,但光流等步骤使得速度很受限;C3D 网络总体来说在准确率上比双流法低几个百分点,但由于采用更加简洁的网络结构且提供端到端的训练,时间效率上更快。现有的行为识别方法还未能在分类的准确性和运行速度都达到比较好的效果,所以在保证分类效果的前提下,提高网络的运行速度是当前一个很重要的研究课题。而真正的实用化,时间效率是一个非常重要的度量指标。目前本人认为最佳平衡的是ECCV2018上的一篇文章, "ECO: Efficient Convolutional Network for Online Video Understanding " 。ECO在快且好的前提下,网络结构设计得益于双流法和C3D,摒弃了光流场支流并采用了端到端的训练方式。ECO网络的输入为稀疏采样的视频帧,经过共享的2D CNN网络获得这些帧的堆叠的feature map,再经过一个3D CNN网络得到视频级别的特征表示,最后经过分类器得到分类结果。

ECO网络与双流法的TSN(Temporal Segment Networks)网络类似,输入数据不是单帧图像,而是从视频序列中稀疏采样得到一个序列(即一个时序邻域内仅使用单帧图像),以此避免相邻帧间的冗余信息,这样的随机采样策略可以在训练中引入更多的多样性并提高泛化能力;但为了获得长距离的时间结构信息,ECO采用了堆叠feature map 和3D 卷积进行融合,而不是TSN中的时空分数融合。具体的网络结构如下图:
行为识别模型探索
一个视频对应一个标签。考虑GPU的批量操作,输入batch段视频和对应的标签。首先每一个视频被均匀分为N个片段(segment),从每个segment中随机采样一帧RGB图像,得到每一个视频的通道为N3N*3,则ECO网络的输入为batch(N3)WHbatch*(N*3)*W*H;经过一个2D网络得到feature map并按照特定帧顺序排列:为了批量操作,将输入数据尺寸batch(N3)WHbatch*(N*3)*W*H转置为(batchN)3WH(batch*N)*3*W*H,经过2D网络得到(batchN)Kwh(batch*N)*K*w*h,K为网络输出通道数,再转置尺寸为batch(NK)whbatch*(N*K)*w*h,再将这些batch的通道顺序经过帧顺序特定排列;然后经过一个3D网络和Global pooling得到视频级的特征描述,最后送入全连接层得到尺寸为batchCbatch*CCC为类别数。

测试时,一般是一个长视频或者在线视频流。文中提供了online处理框架如下图。这个框架考虑视频数据的长时信息,主要维护了两个图像组,分别是存放较旧图像的工作记忆组和存放新的未处理图像的新收图像组。每次预测时,从两组视频中各采样一半来更新工作记忆组,并将其作为网络的输入得到当前的预测结果,将当前的预测结果和平均预测结果进行平均后得到最终的输出。另外,ECO在测试阶段中并没有采用cropping采样或翻转等数据增强手段,而是只需要计算一次前向就可以获得很好的效果。
行为识别模型探索
行为识别模型探索
以上就是行为识别模型。而在施工场景中,存在多目标。一般的套路是采用多目标跟踪技术,获取每一个目标的帧序列数据,再送入行为识别模型,进行在线实时识别异常行为。其中对中间跟丢的数据采用线性补全策略。然而这一思路最大的掣肘在于多目标跟踪的效率,现在的探索结果在2块titan xp的算力下,跟踪+识别的效率为4fps。因此另辟蹊径,抛弃多目标跟踪,采用多标签的行为识别分类,即在行为识别模型的损失函数采用多标签分类损失而不是多类分类损失。这样得益于高效的ECO模型,实时性完全满足,在我们自己采集的较理想数据集下识别准确率还行,缺点在于不能很好识别出具体目标的异常。

说实话,行为识别这块虽然已经研究多年,但至今任处于实验室数据测试阶段或理想环境下的试用阶段,没有真正意义上的实用化和产业化。因为真实世界中采集的视频数据往往具有复杂多变的背景,且视频本身存在的多尺度多目标、摄像机移动等等问题。不过也正因为这些难点及其具备的广阔应用前景,无论是学术界和工业界都是一个研究热点。