我的三年——video Summarization with long short-term memory

忙里偷闲，终于有时间好好写写自己的第一篇博文。开头啰嗦一下，以此鼓励日后自己能好好经营我的三年。
真正的生活，不断的打击与抗争构成生活的全部。我的三年，不会更糟，仅剩更好。
坚持，加油。

video Summarization with long short-term memory

今天介绍的是一篇2016 European Conference on Computer Vision 会议论文。
论文链接：www-scf.usc.edu/~zhan355/ke_eccv2016.pdf

科学问题：视频结构预测问题
解决问题：视频关键帧之间应相互之间具有联系，因此在做关键帧的选择的时候每帧是不能独立的做考量。
方法：提出利用LSTM网络，将视频信息中的前向信息和后向信息结合考虑。并且基于LSTM网络之上增加利用Dpp结构，保证选出的关键帧集中差异性大。
模型详解：
（1） vsLSTM：

该网络为vsLSTM网络，该网络结构由两层LSTM网络，一层MLP网络构成。
MLP层为多层神经网络。输入Xt表征第t帧的视觉特征（进一步具体化要通过再仔细阅读文章），网络的输出yT为帧重要度的评分：

forward 和backward 表示两层LSTM网络输出的前向后向信息。
论文论证了仅有多层神经网络做关键帧的评分性能不好，增加LSTM网络能提升性能，同样，通过实验论证了用两层LSTM网络的必要性。
（2）dppLSTM:

dppLSTM网络是在vsLSTM网络结构上增加了dpp结构（Determinantal point processes）。由于vsLSTM计算近程和远程帧之间的关联程度，着重于判断帧的重要程度，而dpp网络则用于找到一个关键帧集，该集合帧之间相异程度最大。
dpp网络的输入为L矩阵：

yt为左vsLSTM的输出，表征帧重要程度。φt为右LSTM网络的输出，表征帧之间相似度。

dpp的输出为候选关键帧集为关键帧集的概率。

Z为视频中所有帧的集合，z为Z的子集。I为单位矩阵。该子集为最终的关键帧集合的概率是子集z的L矩阵的行列式与全集Z的L矩阵行列式的比。
网络训练
（1）训练MLP和LSTM得到两个网络的各自参数
（2）训练整个DPPLSTM网络:

上述公式中L的参数为θ，θ表示该dppLSTM模型中所有的参数。论文利用MLE（最大似然估计法）学习参数θ。
标签
（1）二值化关键帧标签：【关键帧序号为2,6】→【010001】
（2）二值化子片段标签：【关键片段（1,2）（5,6）】→【110011】
（3）帧的重要度打分：【0.5,0.9,0.1,0.2,0.7,0.8】
论文三种标签都用。
训练集和测试集
（1）数据集：SumMe,TvSum,Youtube,Open Vidoe Project（OVP）
（2）训练与测试：

论文对数据集有三种设置：canonical,augmented,transfer.每种设置下，训练集和测试集的分配方式不同。论文在三种设置下进行实验。
实验结果

【30】Multi-video summarization based on video-mmr In: WIAMIS
Workshop. (2010)
【17】 Creating summaries from user videos. In: ECCV. (2014)
【15】Video summarization by learning submodular mixtures of objectives. In: CVPR. (2015)
【16】Summary Transfer: Exemplar-based subset selection for video summarization. In: CVPR. (2016)
【34】Quasi real-time summarization for consumer videos. In:
CVPR. (2014)
【35】 Tvsum: Summarizing web videos using titles. In: CVPR. (2015)
【11】Large-scale video summarization using web-image priors. In: CVPR. (2013)
有实验结果可以看出在训练集数据充足的条件下，论文提出的方法取得的结果最佳。
不足
当视频内容和场景过且变化较快时，该方法的性能不佳，原因在于该网络提取差异性大的关键帧集，容易遗漏内容相似但重要程度高的关键帧。

我的三年——video Summarization with long short-term memory

video Summarization with long short-term memory

相关推荐