我的三年——video Summarization with long short-term memory
忙里偷闲,终于有时间好好写写自己的第一篇博文。开头啰嗦一下,以此鼓励日后自己能好好经营我的三年。
真正的生活,不断的打击与抗争构成生活的全部。我的三年,不会更糟,仅剩更好。
坚持,加油。
video Summarization with long short-term memory
今天介绍的是一篇2016 European Conference on Computer Vision 会议论文。
论文链接:www-scf.usc.edu/~zhan355/ke_eccv2016.pdf
-
科学问题:视频结构预测问题
-
解决问题:视频关键帧之间应相互之间具有联系,因此在做关键帧的选择的时候每帧是不能独立的做考量。
-
方法:提出利用LSTM网络,将视频信息中的前向信息和后向信息结合考虑。并且基于LSTM网络之上增加利用Dpp结构,保证选出的关键帧集中差异性大。
-
模型详解:
(1) vsLSTM:
该网络为vsLSTM网络,该网络结构由两层LSTM网络,一层MLP网络构成。
MLP层为多层神经网络。输入Xt表征第t帧的视觉特征(进一步具体化要通过再仔细阅读文章),网络的输出yT为帧重要度的评分:
forward 和backward 表示两层LSTM网络输出的前向后向信息。
论文论证了仅有多层神经网络做关键帧的评分性能不好,增加LSTM网络能提升性能,同样,通过实验论证了用两层LSTM网络的必要性。
(2)dppLSTM:
dppLSTM网络是在vsLSTM网络结构上增加了dpp结构(Determinantal point processes)。由于vsLSTM计算近程和远程帧之间的关联程度,着重于判断帧的重要程度,而dpp网络则用于找到一个关键帧集,该集合帧之间相异程度最大。
dpp网络的输入为L矩阵:
yt为左vsLSTM的输出,表征帧重要程度。φt为右LSTM网络的输出,表征帧之间相似度。
dpp的输出为候选关键帧集为关键帧集的概率。
Z为视频中所有帧的集合,z为Z的子集。I为单位矩阵。该子集为最终的关键帧集合的概率是子集z的L矩阵的行列式与全集Z的L矩阵行列式的比。 -
网络训练
(1)训练MLP和LSTM得到两个网络的各自参数
(2)训练整个DPPLSTM网络:
上述公式中L的参数为θ,θ表示该dppLSTM模型中所有的参数。论文利用MLE(最大似然估计法)学习参数θ。 -
标签
(1)二值化关键帧标签:【关键帧序号为2,6】→【010001】
(2)二值化子片段标签:【关键片段(1,2)(5,6)】→【110011】
(3)帧的重要度打分:【0.5,0.9,0.1,0.2,0.7,0.8】
论文三种标签都用。 -
训练集和测试集
(1)数据集:SumMe,TvSum,Youtube,Open Vidoe Project(OVP)
(2)训练与测试:
论文对数据集有三种设置:canonical,augmented,transfer.每种设置下,训练集和测试集的分配方式不同。论文在三种设置下进行实验。 -
实验结果
【30】Multi-video summarization based on video-mmr In: WIAMIS
Workshop. (2010)
【17】 Creating summaries from user videos. In: ECCV. (2014)
【15】Video summarization by learning submodular mixtures of objectives. In: CVPR. (2015)
【16】Summary Transfer: Exemplar-based subset selection for video summarization. In: CVPR. (2016)
【34】Quasi real-time summarization for consumer videos. In:
CVPR. (2014)
【35】 Tvsum: Summarizing web videos using titles. In: CVPR. (2015)
【11】Large-scale video summarization using web-image priors. In: CVPR. (2013)
有实验结果可以看出在训练集数据充足的条件下,论文提出的方法取得的结果最佳。 -
不足
当视频内容和场景过且变化较快时,该方法的性能不佳,原因在于该网络提取差异性大的关键帧集,容易遗漏内容相似但重要程度高的关键帧。