我的三年——video Summarization with long short-term memory

忙里偷闲,终于有时间好好写写自己的第一篇博文。开头啰嗦一下,以此鼓励日后自己能好好经营我的三年。
真正的生活,不断的打击与抗争构成生活的全部。我的三年,不会更糟,仅剩更好。
坚持,加油。

video Summarization with long short-term memory

今天介绍的是一篇2016 European Conference on Computer Vision 会议论文。
论文链接:www-scf.usc.edu/~zhan355/ke_eccv2016.pdf

  1. 科学问题:视频结构预测问题

  2. 解决问题:视频关键帧之间应相互之间具有联系,因此在做关键帧的选择的时候每帧是不能独立的做考量。

  3. 方法:提出利用LSTM网络,将视频信息中的前向信息和后向信息结合考虑。并且基于LSTM网络之上增加利用Dpp结构,保证选出的关键帧集中差异性大。

  4. 模型详解:
    (1) vsLSTM:
    我的三年——video Summarization with long short-term memory
    该网络为vsLSTM网络,该网络结构由两层LSTM网络,一层MLP网络构成。
    MLP层为多层神经网络。输入Xt表征第t帧的视觉特征(进一步具体化要通过再仔细阅读文章),网络的输出yT为帧重要度的评分:
    我的三年——video Summarization with long short-term memory
    forward 和backward 表示两层LSTM网络输出的前向后向信息。
    论文论证了仅有多层神经网络做关键帧的评分性能不好,增加LSTM网络能提升性能,同样,通过实验论证了用两层LSTM网络的必要性。
    (2)dppLSTM:
    我的三年——video Summarization with long short-term memory
    dppLSTM网络是在vsLSTM网络结构上增加了dpp结构(Determinantal point processes)。由于vsLSTM计算近程和远程帧之间的关联程度,着重于判断帧的重要程度,而dpp网络则用于找到一个关键帧集,该集合帧之间相异程度最大。
    dpp网络的输入为L矩阵:
    我的三年——video Summarization with long short-term memory
    yt为左vsLSTM的输出,表征帧重要程度。φt为右LSTM网络的输出,表征帧之间相似度。
    我的三年——video Summarization with long short-term memory
    dpp的输出为候选关键帧集为关键帧集的概率。
    我的三年——video Summarization with long short-term memory
    Z为视频中所有帧的集合,z为Z的子集。I为单位矩阵。该子集为最终的关键帧集合的概率是子集z的L矩阵的行列式与全集Z的L矩阵行列式的比。

  5. 网络训练
    (1)训练MLP和LSTM得到两个网络的各自参数
    (2)训练整个DPPLSTM网络:
    我的三年——video Summarization with long short-term memory
    上述公式中L的参数为θ,θ表示该dppLSTM模型中所有的参数。论文利用MLE(最大似然估计法)学习参数θ。

  6. 标签
    (1)二值化关键帧标签:【关键帧序号为2,6】→【010001】
    (2)二值化子片段标签:【关键片段(1,2)(5,6)】→【110011】
    (3)帧的重要度打分:【0.5,0.9,0.1,0.2,0.7,0.8】
    论文三种标签都用。

  7. 训练集和测试集
    (1)数据集:SumMe,TvSum,Youtube,Open Vidoe Project(OVP)
    (2)训练与测试:
    我的三年——video Summarization with long short-term memory
    论文对数据集有三种设置:canonical,augmented,transfer.每种设置下,训练集和测试集的分配方式不同。论文在三种设置下进行实验。

  8. 实验结果
    我的三年——video Summarization with long short-term memory
    【30】Multi-video summarization based on video-mmr In: WIAMIS
    Workshop. (2010)
    【17】 Creating summaries from user videos. In: ECCV. (2014)
    【15】Video summarization by learning submodular mixtures of objectives. In: CVPR. (2015)
    【16】Summary Transfer: Exemplar-based subset selection for video summarization. In: CVPR. (2016)
    【34】Quasi real-time summarization for consumer videos. In:
    CVPR. (2014)
    【35】 Tvsum: Summarizing web videos using titles. In: CVPR. (2015)
    【11】Large-scale video summarization using web-image priors. In: CVPR. (2013)
    有实验结果可以看出在训练集数据充足的条件下,论文提出的方法取得的结果最佳。

  9. 不足
    当视频内容和场景过且变化较快时,该方法的性能不佳,原因在于该网络提取差异性大的关键帧集,容易遗漏内容相似但重要程度高的关键帧。