Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness R

Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward论文阅读笔记

论文整体概述

对于视频摘要,本文使用了一种无监督的方法,作者认为监督学习不能充分探索深度网络用于视频摘要的潜力,前人有人使用DPPLSTM网络应用于视频摘要,本文将视频摘要描述为一个顺序的决策过程,提出了一个DSN网络,这种网络具有编码结构,其中编码器是一个卷积神经网络(CNN),它对视频帧进行特征提取,解码器是一个双向LSTM网络,他产生基于哪些动作采样以选择帧的概率,并提出了一个端到端、基于强化学习的框架,具有多样性、代表性奖励函数,共同考虑生成摘要的多样性和代表性,不依赖于标签或者用户交互,多样性奖励测量所选帧之间的差异,代表性奖励计算帧与最近的选定帧之间的距离,本文是第一次将强化学习应用于无监督视频摘要。使用强化学习训练DSN网络的原理是双重的,首先使用RNN网络作为我们模型的一部分,将重点放在无监督设置上。作者推测DSN可以从强化学习中获得更多的好处,因为强化学习本质上是通过迭代采取更好的行动来优化帧选择的机制。

本文主要贡献

①开发了一个端到端、基于强化学习的DSN框架,在该框架中,提出了一个无标签的奖励函数,他共同考虑了生成摘要的多样性和代表性,并第一次将强化学习应用到无监督视频摘要;
②将无监督方法扩展到监督方法上来,更好的利用标签数据;
③在两个基准数据集上进行了广泛且充分的实验,表明我们的无监督方法与其他以发表的方法相比更优。

视频摘要研究现状

①2012年Lee等人在总结视频时确定了重要的对象和人员;
②2014年Gygli等人学习了一个现行回归器来预测视频帧的有趣程度,并选择了趣味性分数最高的帧作为关键帧;
③2015年Gygli等人将视频摘要作为一个子集选择问题和具有多个目标的优化子模块函数;
④2013年Ejaz等人应用注意力建模技术提取视觉显著性的关键帧;
⑤Zhang等人开发了一种非参数方法,将已知视频摘要的结构转移到具有类似主题的新视频中,还利用辅助资源来促进总结过程,如网络视频/图像等;
这些非深度摘要方法大多独立地处理视频帧,从而忽略了固有的顺序模式。此外,非深度总结方法通常不支持端到端的训练,这会在测试时间造成额外的成本。为了解决上述问题,我们通过深度RNN对视频摘要进行建模,以捕获视频帧中的长期依赖关系,并提出了一种基于强化学习的框架来端到端的训练网络。

本文提出的方法

本文将视频摘要描述为一个顺序的决策过程。 特别是,我们开发了一个深度摘要网络(DSN)来预测视频帧的概率,并根据预测的概率分布来决定选择哪个帧。 我们提出了一个端到端、基于强化学习的框架来训练我们的DSN,提出了多样性、代表性奖励函数,它直接评估生成的摘要有多多样化和代表性。
Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness R 通过强化学习训练深度总结网络(DSN)。DSN接收一个视频V,并采取行动A(即二进制变量序列),其中视频的部分被选择为摘要S。反馈奖励R(S)是根据摘要的质量,即多样性和代表性来计算的。

实验以及实验结果

评估了我们对SumMe的方法(Gygli等人.2014年)和TVSum(Song等人. 2015)。Sum Me由25个用户视频组成,涵盖各种主题,如假日和体育。 SumMe中的每个视频从1到6分钟不等,并由15到18人注释,因此每个视频都有多个摘要。TVSum包含50个视频,其中包括新闻、纪录片等主题。 每个视频的时长从2分钟到10分钟不等。与SumMe类似,TVSum中的每个视频都有20个注释器,提供帧级重要性分数。我们将重要性分数转换为基于镜头的摘要进行评估。除了这两个数据集之外,我们还利用了另外两个数据集,OVP1,它有50个视频和You Tube(De Avila等人。 2011年),有39个视频,不包括卡通视频,以评估我们的方法。
SumMe和TVSum数据集上结果:
Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness R
无监督方法对SumMe和TVSum的影响结果
Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness R

总结

本文提出了一种无标签强化学习算法来解决无监督视频摘要问题。 在两个基准数据集上的广泛实验表明,使用增强学习与我们的无监督奖励函数优于其他最先进的无监督替代方案,并产生了与大多数监督方法相媲美甚至优于大多数监督方法的结果。

Projects Github地址

https://github.com/KaiyangZhou/pytorch-vsumm-reinforce

注:

第一次写博客,如有不规范或者理解错误的地方欢迎留言~