【CVPR2020】视频分析:e2e
小样本视频识别:e2e
文章来源:https://arxiv.org/pdf/2003.01455.pdf
Motivation
实际应用中获得视频的标签代价是高昂的,然而目前已经有丰富的视频识别训练集。可以在已有的训练集上训练再作迁移。小样本视频识别一般可分两种,一是测试视频已知但测试标签未知,二是测试视频和标签都未知。本文探讨的是后一种。不论哪种,训练样本的标签应该和测试样本的标签不重合,但是很多文章都做不到这一点。
Previous work
之前小样本视频识别方法:给一个测试视频x,和测试标签集C。提取x的语义特征向量(一般先提取视觉特征向量再转化为语义特征向量),同时把C中的所有标签转化成语义特征向量,在语义特征空间用最近邻算法预测。
公式如下
其中Word2Vec是nlp领域有名的方法。g是视觉特征提取网络fv和语义提取网络fs的复合。
下图是几种经典的方法和本文方法的网络结构。主要区别是fv和fs。
end-to-end training
之前的方法fv用的是预训练的模型,迁移到新任务时冻结fv的参数,使得优化的压力全落在了fs上。
本文让fv和fs全都可训练,并且将fs精简成了全连接层。总的流程可总结为一个很简介的公式:
其中是从训练视频中随机选取的16帧的snnipet.
Standard
可能这领域比较新也比较混乱吧,作者尝试提出一些标准希望后面的人能遵循
首先,训练集(包括预训练集)和测试集的标签不重叠。简单地移除名字重复的标签显然是不行的,因为有的标签名字虽然不一样,但指向的是同一个事物。应该用Word2Vec转化到语义特征空间比较距离,把距离过小的标签移除。
其次,训练集和测试集的来源应尽量独立。这表明从一个数据集划分训练集和验证集的方式是不可取的。
最后,应该有多个测试集。