【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

pdf链接:https://openreview.net/pdf?id=B1lKS2AqtX

EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

3DLSTM:一种用于视频预测和超越的模型

摘要:

时空预测学习虽然长期以来被认为是一种很有前途的自监督特征学习方法,但在未来的视频预测之外却很少显示出它的有效性。原因是短期框架依赖关系和长期高层关系很难很好地表达出来。我们提出了一个新的模型Eidetic 3d lstm(E3d-lstm),它集成了三维卷积。进入RNNs。封装的3D-Conv使RNN的局部感知器具有运动感知能力,并使存储单元能够存储更好的短期特征。对于长期的关系,我们通过一个栅极控制的自关注模块使当前的存储器状态与它的历史记录进行交互。我们描述了这种记忆转换机制,因为它能够有效地跨多个时间戳回忆存储的内存,即使在长时间的扰动之后也是如此。我们首先评估了基于广泛使用的未来视频预测数据集的E3D-LSTM网络,并实现了最新的性能。然后,我们发现e3d-lstm网络在早期的活动识别方面也表现良好,可以推断出在只观察有限帧视频后发生了什么或将要发生什么。此任务对齐在建模动作意图和趋势方面进行视频预测。 

1.介绍

时空预测学习的一个基本问题是如何有效地学习用于视频推理或推理的良好表示。目前,递归神经网络(Rnn)仍然是这一领域最有前途的模型,并在一些未来的视频预测基准上取得了最新的成果。(Wang et al., 2018b; Oliu et al., 2018).然而,除了帧预测之外,基于RNN的模型在学习高级视频表示或捕获长期关系方面不太有效。另一方面,最近的研究证明了这一点。t-三维卷积神经网络(3D-CNNs)在学习更好的动作分类表示法方面优于RNNs。(Carreira & Zisserman, 2017; Tran et al., 2015).例如,3D-CNN的变体,如膨胀的3D-CNN,大大提高了UCF 101和动力学数据集的行动分类精度。这些3D-CNN架构没有重复的结构,而是采用3D卷积(3D-CONV)和3D合并操作来保存将是O的输入序列的时间信息。在经典的2D卷积运算中被丢弃。

基于3D-CNNs的最近成功,本文提出了一种基于递归建模(时间依赖)和前馈3D-C的时空预测学习模型。ONV建模(用于局部动力学)。当然,一种看似合理的方法是简单地将3D-Conv和每个RNN单元以前馈的方式堆叠起来,使用3D-Conv来感知原始视频中的细粒度特征,或者结合高级别的特征表示。然而,正如我们的实验所示,这些简单的扩展可能不能超过基线RNN模型。 我们将这些发现归因于rnn和3d-cnn代表了两种非常不同的机制,用于相同的时空建模目的,而将它们直接连接起来并不能利用它们的优点。精神优势。因此,它仍然具有挑战性,需要有原则的方法来设计有效的时空网络。

为此,我们提出了一种新的时空预测学习模型&Eidetic3D LSTM(E3D-LSTM)。我们引入了一个Eidetic 3D 存储器:a)在一个短暂的时空体积中记忆局部的外观和运动,和b)通过学习关注之前的存储状态来回忆长期的历史背景。就短期相关性而言,在许多情况下,时空预测建模主要依赖于时间上的临近现象和正在进行的短期运动。所有的信息都用一个短的时间卷积窗口被封装到一个完整的3D存储单元中,并用于递归转换。实验结果表明,将3d-conv深度集成到rnn中可以有效地对局部表示进行连续建模。另一方面,对于预测非平稳或周期性视频以及学习高级视频表示非常重要的长期交互,我们利用了自关注。经修订的递归门控制以回忆时间上遥远的存储器的机制。学习E3D-LSTM的当前记忆状态来关注所有以前的相关时刻。实验结果表明,这种注意机制有利于长期记忆.我们描述这种存储器转换机制,因为即使在长时间的干扰之后,它能够有效地在多个时间戳上调用所存储的存储器。

据我们所知,提出的E3D-LSTM模型是第一批在RNN中利用3D-Conv的方法之一。我们根据标准时空预测任务和在四个基准上的早期活动识别任务对其进行经验验证:a)在未来的视频预测中,它在三个经典基准上实现了最佳公布的精度;b)关于早期活动识别,它优于现有技术的动作识别方法。此外,我们还表明,自我监督学习能够进一步改善早期活动识别的性能。我们进行了消融研究,以验证PR中所有模块的有效性选择E3D-LSTM模型。

2.相关工作和问题背景

时空预测学习模型。近年来,RNNs在序列预测和未来帧预测中得到了广泛的应用。斯里瓦斯塔瓦等人(2015年)将基于LSTM的序列扩展为序列模型(Sutskever等人,2014年))用于学习视频表示的语言建模。史等人(2015)在高维序列预测中,将卷积积分到循环状态转换中,提出了卷积LSTM。Finn等(2016)扩展了卷积LSTM模型,以预测机器人环境的未来状态。.Vilgas等人(2017年)利用光学流程帮助捕获视频预测的短期视频动态。...徐等人(2018)提出了一种两流rnn,用于处理不同流中的结构化视频内容。Kalchbrenner等人(2017)引入了一个复杂的模型,该模型扩展了递归结构,以估计相邻像素之间的局部依赖关系。虽然该视频像素网络(v*n)模型能够描述图像序列,但是计算负载过高。

上述的递归模型主要基于序列更新的记忆状态来预测未来的帧.当内存单元被刷新时,旧的内存将被立即丢弃。相对应AST,提出的E3D-LSTM模型维护了一个历史内存记录列表,并在必要时撤销它们,从而为远程视频推理提供了便利。虽然这种想法在精神上类似于前馈网络中的自我关注模块(vaswani等人,2017;wang等人,2018a),但我们利用它将此工作中的长期和短期视频表示关联起来。

上述现有工作和所提出的模型之间的另一个显著差异是,我们使用3D-Convs作为E3D-LSTM中的基本操作,而不是完全连接或2D卷积操作。我们使用3D-CONVS来模型递归状态-状态转换可以显著提高预测性能。这一想法的动机是视频分类(高级)的最新进展(Ji et al., 2013; Tran et al., 2015; Carreira & Zisserman, 2017).我们注意到Vondrick等人。(2016年)和Tulyakov等人。(2018)还引入了用于时空预测学习的3D-CNN。然而,这些网络都是前馈的,不会捕获时间上的数据。有效的耐性。

不完善模型的未来预测误差可分为两个因素:(A)由于缺乏对确定性变化的建模能力而造成的“系统误差”;(B)未来的随机性、固有不确定性。我们的目标是尽量减少这项工作中的第一个因素。对于第二个因素,许多方法已经将对抗性训练或变分自动编码器应用于视频预测,例如(Mathieu et al., 2016; Vondrick et al., 2016; Denton & Fergus, 2018; Bhattacharjee & Das, 2017; Tulyakov et al., 2018; Lu et al., 2017; Wichers et al., 2018).

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

图1:将3D-Conv集成到递归网络中的三种方法。蓝色箭头表示具有3D-Conv(用于前馈功能或递归隐藏状态)的数据转换路径。图解简化用于说明,层和RNN状态少于我们实验中实际使用的层和RNN状态。当被训练用于将来的视频预测时,所述分类器被移除。 

卷积递归网络。我们的模型与卷积递归网络密切相关。在ConvLSTM网络(Shii等人,2015)中,所有的状态转换都是用2D卷积实现的。因此,转换函数不再是置换不变的,并且能够更好地感知时空邻域中的关系。时空LSTM(ST-LSTM)的特征在于分别传送两个存储器状态(Wang等,2017):内存M在一个曲折的方向,而内存C是水平传递的(详见附录A)。在该模型中,M提供了更大的短期运动建模能力,并从完全连通的lstms(hochreiter&schmidhuber,1997)中采用C来缓解消失梯度问题。尽管ST-LSTM在视频预测基准上执行得很好,但它不能有效地捕获长期的视频关系。内存C的遗忘门倾向于对短期特性作出强烈响应,从而很容易陷入饱和区域(值介于0到0.1之间),并中断远程信息流。.我们在ST-LSTM上采用了内存M的Z字形更新路由,同时提高了更新时间内存C的遗忘机制,同时也增加了内存状态的大小,3D-Conv作为状态转换的基本运算符。

3.三维LSTM

本节首先介绍Eidetic3D LSTM,用于感知和记忆视频中的短期和长期表示。然后,我们讨论了一种调度的多任务学习策略,该策略使用预测学习作为活动识别的辅助自我监督任务。

3.1递归网络中的3D卷积

一个理想的预测模型依赖于对视频表示的有效学习。RNNS和3D-CNN是不同时空数据建模机制的网络体系结构.在这项工作中,我们目的在一个统一的体系结构中充分利用每个单元的强度,并从堆叠3D-Conv和RNN单元的两个看似合理的扩展开始讨论。图1(A)和图1(B)说明了两个混合基线网络,它们在叠加的时空LSTM之前或之后添加了3D-CNN。然而,我们发现,在LSTM单元外集成3D-Conv比基准RNN模型的性能要差得多。为此,我们建议在LSTM单元内实现3D-CONVS的“更深”集成,以便将卷积特性随时间引入到循环状态转换中。图1(c)显示了整体编解码结构。在该模型中,一个连续的T输入帧首先由几层3D-Conv编码,以获得高维特征映射。将3d-conv特征映射直接输入到一种新的E3d-lstm中。建立长期时空相互作用模型。最后,通过多个叠加的3D-Conv层对E3D-LSTM隐藏状态进行解码,得到预测的视频帧。对于分类任务,h。IDDEN状态可以直接用作学习的视频表示。

3.2特征记忆转换

在图2中示出了所提出的eIFACT3DLSTM的体系结构,其中红色箭头指示短期信息流,而蓝色箭头表示长期信息流。有4个输入:XT,3D-CONV特征映射来自编码器或隐藏状态,来自前一个E3D-LSTM层;HKT1,先前时间戳的隐藏状态;CKT1,先前时间戳的存储器状态;和MK1T,先前描述的先前时空存储器状态。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

图2:(a)时空LSTM中的标准存储器转变方法和(b)在EISTIC3DLSTM中的关注存储器转变方法的比较。红色箭头表示短期信息流。蓝色箭头是注意的内存流,这可能使我们的模型能够捕获长期的关系。立方体表示高维隐藏状态和记忆状态。圆柱体表示高维门。【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND是Hadamard的产品。⊗是将矩阵重构成适当的二维形式后的矩阵乘积.

我们使用递归3D-CONVS作为运动感知的感知器,在连续的时空域中提取短期的外观和局部运动,并将它们存储在较小的时空体积中。因此,提供了O形和短时运动可以用RT×H×W×C张量编码,其中每个维分别表示时间深度、空间大小和特征映射通道数。通过沿时间维膨胀记忆状态,我们发现所提出的E3D-LSTM更能描述和记忆局部或短期的运动。

为了捕捉长期帧间的相互作用,我们提出了一种新的记忆回忆机制,从而改善了记忆状态的循环转换功能:

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

其中,σ是乙状结肠函数,∗是3D-Conv运算,是Hadamard乘积,·是将召回门RT和记忆状态cktτ:T1重组为RTHW×C和RτTHW×的矩阵乘积。分别为C矩阵和τ是沿时间维串联的内存状态数。计算中涉及三个术语。首先,它编码本地视频外观和运动,其中它是输入门,GT是输入调制门类似于标准的LSTMS。SECORD一个CKT1可被视为来自先前存储器状态的捷径连接,其捕捉相邻时间戳之间的短期变化。在此过程中,可访问的存储器字段是固定且有限。因此,我们引入了记忆转换函数的第三个项,根据局部运动和外观(用xt和HKT 1编码)来建模长期视频关系。召回功能是作为一个注意模块来实现,用于计算编码的本地模式与整个内存空间之间的关系。一组参数化的门RT,作为存储器访问指令,控制在历史存储器记录中的何处和什么。这两个术语分别设计用于短期和长期-术语视频建模。我们在统一网络中通过应用层标准化(BA等,2016)将其集成到其元素-wise和中,以缓解CoVariant迁移并稳定培训过程,因为它已在RNN中普遍使用。tt中的超参数τ决定了召回门rt有多少历史记忆状态,以涉及更长期的关系,在大多数实验中,我们采用ck 1:t1作为inpu。t的召回函数,不修复τ。特别是,我们通过将τ设置为5来启用在线识别。

与传统的内存转换函数不同,RECALL函数学习时间交互的大小。对于较长的序列,这允许处理包含显著In-的遥远状态。我们的工作部分受到自我关注机制的推动(Lin等人,2017年;Vaswani等人,2017年)。然而,在我们的模型中,注意力机制并不适用于输出状态,而是在记忆转换。它被用来从遥远的时间戳中唤起过去的记忆,用来记忆和从感知到的东西中提取有用的信息。我们展示了学习注意力比以前的记忆状态i这对回顾长期的历史背景是有益的。该存储器张量被命名为E3D-LSTM,整个单元称为E3D-LSTM。我们还利用同样的召回方法来关联。EM1:KT沿垂直内存转换流程,但结果却不那么有帮助。随着更新的存储器状态CKT,输出隐藏状态为:

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

其中W1、1和1是1个或1个卷积,用于通道数的变换。I0T、G0T和F0T是时空存储器的栅极结构。OT是输出门。

3.3自我监督辅助学习

对于诸如视频动作识别之类的许多监督任务,在训练令人满意的RNN的时间上常常没有足够的监督或注释。作为对这个问题的辅助措施,未来的视频预测被认为是一种很有前途的表示学习方法,随着时间的推移,它会被更密集的监督,并且可能会提取有用的特征来帮助。

我们考虑两个任务:像素级的未来帧预测和另一个视频级别的分类任务(在我们的例子中,早期活动识别)。对于框架预测,目标函数是:

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

其中Xb和X分别是预测和地面真相未来帧。k·kf是Frobenius范数。对于早期的活动识别,我们使这两个任务的模型共享相同的网络b。使用多任务学习目标进行端到端培训:

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

其中Yb和Y是高层预测和对应的地面真值表。LCE是分类的交叉熵损失,它是权重因子。

虽然改善这两个任务需要适当的长期短期上下文表示,但不能保证像素级监督学到的特性将完全与任何高级别相一致。目标。因此,我们引入了一种预定学习策略,其中目标函数在课程学习方式中逐渐从一项任务向另一项任务倾斜(Bengio等人,2009年)。特制在迭代次数I上,我们将线性衰减应用于λ:

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

当λ(0)和η分别是λ(I)的最大值和最小值时,控制辅助任务角色的下降速度。我们称这种方法为自我监督辅助学习.

4.实验

我们对所提出的E3D-LSTM模型进行了两方面的评价:未来视频预测和早期活动识别。这两个任务对于许多需要有效应用的应用程序来说都是非常重要的。时空预测模型我们证明,E3D-LSTM模型在四个具有挑战性的数据集上与最先进的模型相比表现良好。源代码和经过训练的模型将be向公众提供。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

表1:移动MNIST数据集的结果。除了DFN和v*n之外,所有型号都使用相当数量的参数进行培训。较高的SSIM或较低的MSE得分表明更好的结果。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

4.1未来视频预测:移动MNIST

我们首先评估E3D-LSTM模型与最先进的视频预测模型,在一个常用的移动数字合成基准数据集上。所有的实验都是用张量进行的。Flow(Abadietal.,2016),并接受了ADAM优化器(Kingma&BA,2015)的培训,以将帧中每个像素的L1+L2损失降至最低。为了进行公平的比较,我们确保所有模型具有可比性使用相同的计划抽样策略(Bengio等人,2015年),以减少重复模型培训的难度。

数据集和设置。移动MNIST数据集是通过从原始的MNIST数据集中随机抽取两位数,使它们在边界处以恒定的速度和角度在Blac内浮动和反弹而形成的。k张64×64像素的画布。整个数据集有固定数量的条目,10,000条用于培训的序列,3,000条用于验证的序列,5,000条用于测试的序列。

我们在图1(C)所示的体系结构中堆叠了4个E3D-LSTM,忽略了用于此任务的3D-CNN编码器。为了保持隐藏状态的形状随时间的推移,集成的3d-conv算子是协同的。M2由5(时间、高度或宽度)卷积构成,并且具有相同的滤波器尺寸的相应转置卷积。每个E3D-LSTM的隐藏状态信道的数目是64。临时aL步幅设置为1,并且在连续时间戳上有一个重叠帧。单个3D-Conv层被用作解码器以将运动感知的隐藏状态映射到输出帧。

根据包括ConvlTM网络(Shi等,2015)、DFN(deBrabandere等,2016)、cDNA(Finn等,2016)、v*n基线模型在内的现有技术方法评估E3D-LSTM模型。与CNN解码器(Kalchbrenner等人,2017年)、Pred RNN(Wang等人,2017年)、Pred RNN(Wang等人,2018年b)和FRNN(Oliu等人,2018年)合作。

主要结果。表1显示了使用文献中常见设置的评估模型的性能:根据前面的10个观察(表示为10→10)生成10个未来框架。我们用的是Me结构相似指数测度(Ssim)(Wang等人,2004年)和每帧均方误差(MSE)用于评价.ssim范围介于n1和1之间,表示gener之间的相似性。图像和地面的真相。如表1的第二列(10/10)所示,我们的模型在两种度量中都很好地克服了现有技术的方法。结果表明,E3D-LSTM网络在视频时空数据建模中是有效的预测。图3(A)显示了我们的模型比其他方法更好地从纠缠数字预测未来帧的定性比较。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

复制测试。当存在反复干扰时,我们使用复制测试设置来评估该模型,其中任务是在较长的输入序列中记忆有用的信息。输入剪辑由三个子序列组成,如图3(B)所示。而Seq1和Seq2是完全无关的,在它们之前,给出了另一个称为先验上下文的子序列。输入,与Seq 2完全相同。用黑色箭头标记的帧是输入,用红色箭头标记的帧是预期的输出。有两个训练目标:(A)预测seq 1的10个未来帧;(B)预测seq 2的10个未来帧。在测试时,我们只对seq 2的预测结果进行评估。ST对远程视频帧关系建模能力进行评价。设计良好的模型应该对SEQ2作出精确的预测,因为它在之前已经看到了该序列的所有帧。霍伊Ver,此任务对于以前的LSTM网络是困难的。由于SEQ1完全无关,因此进行SEQ1的预测的尝试可擦除其SEQ2的记忆。

结果列于表1的第三列(副本)中。所有基线模型都受到来自SEQ2的无关帧带来的影响,并且倾向于逐渐忘记显著的INFORMATI。在先前的背景下。然而,多亏了独特的3D内存,我们的E3D-LSTM模型捕捉到了长期的视频帧交互,并且在这两个指标上都表现得很好。对ATT的仔细检查权值显示,E3D-LSTM模型能够更好地处理跨多个时间戳的有用的历史表示。复制测试表明,e3d-lstm网络具有建模能力。远距离周期性运动有效。

烧蚀研究 。我们进行一系列消融研究并总结表2中的结果。首先,在前两行上,我们展示了两个可供选择的3D-LSTM模型,其中包括3D-CONVS,位于循环单元之外,包括:底部3D-CNN(图1(a))和顶部的3D-CNN(图1(b))。性能下降通过EIFACT3D存储器验证3D-CONVS和RNN单元的集成。第二,第三基线方法是将模型中的所有3D卷积滤波器降低到2D的特殊情况。结果证明了在个体R内通过3D存储器捕捉局部时空模式的效果。eurnat状态。此外,可以在第四基线方法中分离存储器关注机制的贡献。请注意,所有评估的模型都接受了类似数量的参数的培训为了进行公平的比较,性能的提高来自于设计选项,而不是增加的模型参数。

4.2未来视频预测:KTH行动我们评估了所提出的E3D-LSTM模型在真实世界数据集视频预测中的应用。

数据集和设置。KTH动作数据集(Schuldt等人,2004年)包含执行6种动作的25人,包括步行、慢跑、跑步、拳击、挥手和拍手。平均每个视频剪辑持续4秒。我们按照(vilgasetal.,2017)的实验设置,使用人1-16进行训练,17-25进行测试。每个帧的大小调整为128个像素。我们雇用了萨姆EE3D-LSTM网络体系结构详见4.1节。对模型进行训练,以根据前10个观察结果预测下10个帧。将测试时间的预测水平扩展到20或40,时间戳。

结果。表3显示了所提出的模型和最先进方法的定量结果.和以前的工作一样,我们使用ssim和PSNR作为度量标准。与关于移动MNIST数据酶的观测结果一致在预测未来10帧、20帧和复制测试的三个设置中,e3D-LSTM模型对现有技术的方法有利地执行。这些经验结果证明了EF用于建模时空数据的E3D-LSTM模型的可靠性。

图4比较了有代表性的生成框架。我们选择具有相对复杂的时空变化的视频序列(无论是运动轨迹还是人像大小)。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

图4:第k次生成帧的比较。(顶部)基于10个先前观察结果的下一个40帧的预测。(底部)复制测试,需要复制以前的输入。

表3:对KTH人类行动试验装置不同方法的定量评价。度量是在预测帧上平均的。分数越高,预测结果越好。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

上半部分(基于前10帧预测接下来的40帧),E3D-LSTM预测未来更准确的运动轨迹,而Pred RNN和ConvLSTM则错误地预测人的运动轨迹。离开现场。下半部分显示复制测试,提供预期的输出作为先前的输入。我们直接应用模型,这些模型是在第一个设置下训练的,用于这个测试。如果没有先前的上下文,在某些情况下,LD很难预测人体的运动。有了先前的输入,E3D-LSTM从它的记忆中获益最大,并且对快速的外观变化有很好的响应。相反,PredRNN和ConvLS由于缺乏对长期数据关系的建模,TM无法从远距离观测中获取有用的时空模式。 

4.3一个真正的视频预测应用程序:交通流量预测

我们进一步评估了我们在滑行道BJ数据集中的方法,该数据集包含连续热映射中的实时流量数据。预测城市交通条件是一个复杂的设置,作为热图。

表4:滑行道BJ数据集的实验结果。我们在每次邮票上都报告MSE。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

数据集和设置。 使用TaxiABS北京的GPS监测器从混乱的真实世界环境中收集滑行器Bj数据集。每个框架均为32或32或2个热图。最后一个维度表示同一区域的进出交通流强度较大。我们将整个数据集分成一个训练集和一个测试集,如本文(Zhang等人,2017)所述。我们把网络训练成从4次观测中得到T4帧(接下来的2小时)。我们使用与移动MNIST和KTH数据集相同的网络体系结构和培训设置。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

 图5:TaxBJ交通流数据集的预测结果。为了便于比较,我们可视化了生成的热量图与它们对应的地面真实热图之间的差异。

结果。我们在表4中的每个时间戳报告MSE,其中较低的分数指示更好的预测结果。我们还显示了图5中的预测示例。此外,我们还观察了TH之间的差异e生成的热图和地面真热图。总体上,E3D-LSTM模型优于其他方法,大多数区域的差异强度最低。

4.4早期活动识别:某物-某物

为了验证E3DLSTM模型能够有效地学习高级视频表示,我们对早期活动识别进行了实验。任务是预测vi中的活动类别。只观察到一小部分帧后,再进行删除。我们选择不对活动识别任务的全长视频进行评估,因为当模型看到全长视频时,它可能会做出决策。

数据集和设置。某物-某物数据集(Gyal等,2017)是最近的活动/行动识别基准(https://20bn.com/datasets/something-something)。我们使用标准和官方的子集whiCh包含培训集的56,769段短片和41个动作类别的验证集的7,503段视频。视频长度范围为2到6秒,24fps。我们采用早期活动识别设置(MA等人,2016;Zeng等人,2017;Zhou等人,2018),其中模型预测动作在观察到每个视频的前25%或50%帧后键入。由于这些动作出现在不同的场景中,并且涉及到与不同对象的交互,所以即使是对人类来说,预测行为也是很有挑战性的(参见图6)。只有细微的差别在这个数据集中的一些操作,例如“在没有堆栈崩溃的情况下预订一堆[某物]以便堆栈崩溃”,而“在没有堆栈崩溃的情况下预订一堆[某物]”,或者“将[某物]注入[S]。相对于“试图将[某物]倒进[某物],但却错过了,因此它会在它旁边溢出”。为了进行正确的预测,模型需要利用时空线索来理解动作之间的细微差异。即,可以评估高级视频的模型有效性任务。准确地认识早期行动需要对未来框架进行预测,这只能通过基于历史观察的有效模型来实现。

超参数和基线。我们使用图1(c)所示的体系结构作为我们的模型,它由2层3D-CNN编码器、4层E3D-LSTMS和2层3D-CNN解码器组成。3D-CNN编码器采用4个缺点在224个原始帧中,将它们编码为2,56,56,64个特征映射在每个时间戳,然后将它们馈送到E3D-LSTM中。每个编码器层具有64个滤波器(滤波器尺寸为2个或5个)。5).对于E3D-LSTMS,我们使用与视频预测相同的超参数.译码器层将e3d-lstms的输出映射回rgb空间,这是一个1×3的矩阵,预测下一个帧如下。输入。我们训练网络以使用视频的前25%或50%帧来预测下一个10帧。请注意,我们不会在测试时间将任何预测状态扩展到将来。对于培训和测试,我们针对最后一个16个输入时间戳(考虑第一个25%视频片段通常具有AB)连接顶部重复单元的隐藏表示。(输出20-30帧),并将它们输入分类器进行活动识别。该分类器包含2层3D-Conv,共128个滤波器(滤波器尺寸:2×3×3,滤波步长:2×2×2)。其次是2×2×2池层。它们将级联的递归特征从16×56×56×64转换为1×7×7×128。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

图6:早期活动识别结果给出了某物-某某验证集上的前25%和50%的视频帧。蓝色条形表示正确的分类和红色。

表5:对某物的41个类别子集的早期活动识别准确性。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

然后将它们传递到512通道完全连接的层,然后进行41路分类.我们还开发了自监督辅助学习方法,并对该模型进行了目标函数的训练。在方程4中,我们在方程5到10(i=0)中设置了λ(I),每次迭代速度为2×10-5,下界为η=0.1。

我们根据最先进的前馈3d-conv体系结构(diba等人,2016年;carreira&zisserman,2017)、可分离的3d-cnn(谢等人,2018年;q等人,2018年)评估e3d-lstm模型。IU等人,2017年)和(21)D-CNN(Tran等人,2018年)。这些网络在UCF-101和用于行动识别的动力学基准数据集上取得了最先进的结果。为了公平的比较,我们使用与E3D-LSTM网络相似的骨干训练这些基线模型。

结果。表5显示了E3D-LSTM网络相对于先进的前馈3D-CNN的分类精度.在以下两个设置中,E3d-lstm模型对其他方法具有良好的性能。使用前25%和50%的帧,显示了它在学习高级时空表示方面的有效性.图6示出了容易混淆的两对视频活动,特别是具有这样有限的观察结果。例如,我们的模型正确地预测了图书的崩溃,而只有一个时态。这种推理能力来自于我们的模型的集成设计,以捕捉短期运动和长期依赖关系。另一方面,作为前馈的3d-cnn模型的长期关系。离子通过采样和组装,在寻找因果之间的时间依赖性方面表现不佳。我们注意到,Zhou等(2018)推出了一种前馈CNN模型,并在同一数据集中报告了早期识别结果。在ACCU方面比较这两种方法是不有意义的。作为我们的模型是训练仅使用25%-50%的视频帧,而不是整个视频(周等人,2018年)。此外,这两种方法使用不同的骨干网络进行训练,而且不同。数据集的分割。

表6:某物数据集早期活动识别的消融研究。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

表7:不同培训策略对某事物数据集的准确性比较。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

一些最近的研究显示,在3D-CNN模型中分离时间和空间卷积操作导致更好的结果(Xie等,2018;Chu等,2017;Tran等,2018)。该OBS在表5中我们的结果验证了删除的有效性。然而,由于这种分离导致了伪三维卷积,在这种卷积中,空间和时间滤波器是独立的,这似乎违反了直觉。...有趣的是,在我们的模型中,这种分离会导致性能损失,这意味着E3D-LSTM中的三维卷积共同捕获了时间和空间信息。

烧蚀研究。我们按照第4.1节进行类似的消融研究,并总结表6中的结果。来自前两行的结果显示,我们在RNN内部更深地集成了3D-CONV仅用于像素级视频预测,也适用于高级活动识别。第3行和第4行的结果显示了在所提出的EIFISTIC3DLSTM:A)3D卷积特征和B)存储器注意机制中的两个重要分量的贡献。两个组件均为U对于时空数据的有效建模具有重要意义。表7显示了在不同环境下应用自我监督培训的情况。所提出的自监督辅助学习方法比其他方法有更好的效果,包括使用视频预测模型作为网络初始化,或者在此基础上对模型进行训练。具有固定目标函数比的两个任务。

我们通过使分类器只依赖于最后5个递归输出状态的级联来实现在线早期活动识别。使用方程1,我们确定了所注意的内存的长度。通过将其设置为5来进行调节。此类设置适用于培训和测试。表8显示了实验结果。尽管精度略有下降,但它能够实现在线预测。

表8:在线早期识别的准确性:分类器建立在最后5个循环输出状态上。

【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

5.结论

时空预测学习在各种应用中表现出显著的改进,例如天气预报、交通流预测和物理交互仿真。虽然它被认为是一种很有前途的自监督特征学习范式,在视频预测之外很少显示出它的有效性。本文提出了基于三维卷积的E3D-LSTM模型。执行这项任务的经常性单位。在该模型中,我们将3d-conv集成到状态转换中来感知短期运动,并设计了一个由递归门控制的记忆注意模块。捕捉长期视频帧交互。实验结果表明,E3D-LSTM模型与现有的视频预测和早期活动预测方法相比,表现出了良好的效果。认知任务。