视听融合综述(三)Audiovisual Fusion: Challenges and New Approaches

分享一篇视听融合研究综述,2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年,是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究(review, survey, and tutorial)不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果,并讨论了该领域的主要挑战,重点是两种模态的不同步以及训练和测试的问题。

题目:Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

发表时间:2015

作者单位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

权威期刊:Proceedings of the IEEE 原文链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741


本文内容是该综述的5、6两节,主要内容为视听融合技术最近的研究进展和方法。

▍目录 ▍

视听融合综述(三)Audiovisual Fusion: Challenges and New Approaches


▍5.最近的进展和方法 ▍

在上一节中确定了我们选择关注的主要AV融合挑战之后,在本节中,我们首先回顾一下有关解决异步和动态加权挑战的最新文献。

第一个挑战的性质特定于所考虑的两种方式:语音和视频。 然而,解决该问题所描述的方法也可以应用于处理其他形式的异步性。

另一方面,动态加权挑战在某种意义上是通用的,也就是说,它适用于任何融合应用。 随后,我们介绍了两种最新技术,即深度和多视图学习,它们对视听融合具有当前和未来的影响。 尽管利用这两种技术进行视音频融合的工作量有限,但是它们已经表现出更高的性能,并且在原则上能够应对未标记,嘈杂,丢失和/或冲突的数据的挑战。


▶ A.异步 ◀

AV预期异步是一种自然发生的语言现象,其中语音段的可见姿势(主要是嘴唇手势)先于该段的其他发音成分出现,因此在听到相应的音素之前就可以看到可见手势。一个常见的例子是在“school”一词中看到的预舍入。在仍生成/ k /(甚至/ s /)的同时,嘴唇开始为/ uw /声音变圆。这种现象被称为先行性协同发音anticipatory coarticulation。保存联动Preservatory coarticulation是一种类似的效果,但不是一个手势提前开始,而是一个手势继续。尽管英语中的先行性协同发音更为普遍,但不同语言间共发音模态的范围和方向也有所不同[117],[118]

至少从1930年代开始就研究了先行性协同发音,这种假设是假设协同发音发生是因为节段segments 可能对于发音方法缺乏特定固有规范[119]。 1966年,亨克(Henke)提出了英语停止语+元音序列发音English stop + vowel sequences的计算模型,其假设是句段不一定总是具有完整的发音目标,因此易于产生发音效果[120]。这项工作以其预期预先发音的“超前”机制而闻名,它提出,一旦停止接触,停止就会向前看其他发音器的元音目标,例如“学校”中的唇部倒圆。在语音识别文献中,Bregler和Konig [121]指出,平均而言,过去120毫秒内声学特征与视觉特征最大相关。 Benoit在心理实验中也有报道[122]。对于视听生物识别技术,Aleksic和Katsaggelos [22]将这些异步影响作为主要的开放性问题之一。

AV处理中的许多问题之一是缺乏足够的语料来进行系统开发[123]。 好的数据库是研究计划的重要组成部分,并且必须包含人们试图建模的现象。 GRID语料库[124]包含许多语言环境,在其中人们可能会发现AV异步,并成为[114]中工作的主要数据库。 为了帮助标记和分析任务,[113]开发了一个AV数据显示(AVDDisplay)工具,该工具提供了用于人工注释和显示以及自动生成的比对和识别假设的显示和操作的界面。 使用AVDDisplay收集了人类标记的数据,并用于建立ground truth[113],[114]。

在分析人类标记数据时,得出的结论是,交叉注释者的同步特征非常一致[114]。总体异步数据符合我们的语言期望,即数据应偏向早期视频发作。每次出现时的异步量直方图,用视频标记减去音频标记来表示,如图3所示。该直方图位于同步和早期视频(20毫秒)之间的边界附近,并且明显偏向早期视频。 Fig. 3.所有单词的真实数据中异步分布的直方图(视频标记/音频标记)。红线表示早期音频,同步和早期视频案例之间的边界[114]。

当前,在AV语音建模中对异步建模的典型方法是耦合HMM(CHMM)[125],其中每个模态的状态转换取决于另一个模态的状态(另一种方法也由异步多流HMM表示) 。在CHMM中,通常只允许在每个音素/语音的范围内进行异步,而观察到的异步性通常会跨越多个音素范围。相反,Saenko和Livescu [112]和Saenko等人的异步动态贝叶斯网络模型[126]允许一个单词内多个音素/语音之间的异步,但不考虑AV异步典型的不对称性。

Terry [114]开发了一种异步模型,该模型可以在跨越多个音素/语音时,对预期的协同发音进行显式建模。 此外,由于语音通常看起来与零星的异步突发同步,因此可以假定,AV语音系统将从以不同方式对这两种状态(同步和异步)进行建模中受益。 基于这样的假设:处于异步状态的AV语音将趋于恢复到同步状态,因此可以假设,每种模态的状态转换将基于异步量而有所不同。 为了对此建模,引入了异步相关的状态转换。 在这个新模型中,每个模态的状态转换都取决于当前的异步程度和模态的当前状态。

[114]中的模型基于[11]中使用的字同步word-synchronous DBN,并添加了基于[112],[126]的同步控制机制。该模型还从CHMM [125]中得到启发,它允许状态转换依赖于变量,而不仅仅是当前模态的状态。但是,在这种情况下,依赖关系取决于瞬时异步而不是状态本身,这减少了参数的数量。在[112]和[126]中,异步量被定义为流的状态索引之间的差的绝对值。 [114]中的工作降低了绝对值,这增加了模型中的参数数量,但允许更正确地对音频超前和音频滞后之间的差异进行建模。该异步模型是在训练期间学习的。除了异步模型本身之外,还添加了一个额外的参数,即异步模型权重,以控制异步模型的相对重要性。

具有异步相关转换asynchrony-dependent transitions的模型称为“ ADT”模型,具有标准转换和异步机制的模型称为状态差异state differences或“ SD”模型。因此,除了AV流stream权重之外,这些模型还有三个主要的调整参数:音频滞后状态的最大数量,视频滞后状态的最大数量以及异步模型的加权。图4将SD和ADT模型显示为DBN。为了清楚起见,状态和音素/语音等级变量已折叠到图中的单个节点中。此外,还有一些常见的元素,例如发音变体和流权重未显示。蓝色的节点和边缘代表音频形式,而红色的节点和边缘代表视频。灰色节点和边缘表示异步模型及其到AV模态的链接。无边界的节点是确定性的和隐藏的,而具有实心圆形边界的节点是确定性的和可观察的。虚线矩形边框表示隐藏的随机节点,虚线圆形边框表示观察到的随机节点。观察到的音频和视频输入节点具有以其各自状态为条件的高斯混合分布。

视听融合综述(三)Audiovisual Fusion: Challenges and New Approaches

图4.用于训练/对齐的单词同步SD和ADT模型。

 

两个模型的所有变量都相同,虚线边缘在SD模型中被排除,而在ADT模型中被包括在内。为了清楚起见,简化了图表,并以未显示的单词级变量为条件[114]。

•AV状态索引(ASI,VSI):相对于最近单词边界的当前状态索引,用于确定当前音素/语音和测量异步性。

•AV状态(A,V):当前的AV音素/视位和子音素/视位状态。

•AV状态转换(AST,VST):一个二进制变量,指示是否已发生AV状态转换。对于SD模型,分布仅以AV状态为条件,而对于ADT模型,分布以AV状态和异步模型(AM,如下所述)的值为条件。这些分布是在培训期间学习的。如果发生状态转换,则在字转换的情况下,下一个时刻的状态索引将增加或重置为零。

•AV观测(AO,VO):声学和视觉特征向量,根据特定于状态的高斯混合模型分布。

•异步模型(AM):异步的瞬时程度(音频和视频状态索引之间的差异)。它在一组允许的异步值上的概率质量函数表示给定数量的音频或视频滞后状态的概率。

•异步强制(AE):具有观测值的二进制变量始终等于一个变量,该变量通过确保ASI(t)-VSI(t) =AM(t)来强制执行异步约束,其中t表示时间。如[126]所述,此变量对于解码不是必需的,但对于用标准EM训练异步模型分布则是必需的。

[114]中的AV语音建模系统是使用GRID [124]语料库在强制对齐任务的上下文中进行评估的。已经发现/ uw /和/ r /的状态转换概率具有相似的特征,并且正如预期的那样,转换的概率根据异步状态而有很大的不同。对于音频落后于视频的情况,在音频赶上音频(即异步状态返回到同步状态)之前,视频不太可能过渡。同样,当视频滞后时,视频很可能会在赶上音频并恢复同步后进行过渡。

关于在[114]中使用的数据的分区,从GRID语料库中选择了十个说话者:说话者2、3、4、10、15、18、19、20、22、24。这些说话者被选择用于更多内容。强调中性,并易于跟踪以提取视觉特征。话语归纳为三套互斥的套件,一套用于训练,一套用于开发,另一套用于测试。对于每个说话者,从1000个总发音中随机选择700个作为训练集,随机选择100个用于发展,其余200个放在一边进行测试。因此,训练集,开发集和测试集的总大小分别为7000、1000和2000。

除了AV强制对齐之外,ADT系统还用于语音识别。结果发现,整体单词识别率的提高很小,但是有趣的是,第一个单词识别率有了很大的提高。


▶ B.动态加权 ◀

众所周知,在存在噪声的情况下,自动语音识别(ASR)系统的性能会大大降低。因此,在描述或观测级别自然会出现语音分类的AV模态加权问题。分配给每个模态的权重应与其执行分类的可靠性相关。例如,在具有理想AV信号的安静环境中,应将更大的权重分配给音频流,这反映了这样的事实:在识别语音时,音频模态比视频模态更可靠。通常,当其中一种模态降级时(例如,由于音频通道中的背景噪声或视觉信号中说话者的嘴巴被遮挡),分配给它的重要性应该降低并反映出在这种情况下我们对此模态的置信度。现在让我们研究一下文献中如何解决音频和视频信号在各种情况下的贡献的加权问题。应当记住,除了权重之和等于1以外,还必须对权重施加更严格的约束[133]。权重通常根据保留的数据进行调整(例如[112]和[113])。有趣的是,在训练过程中使用的隐式权重与测试时施加的权重之间常常会出现不匹配的情况。 [113]报告说,他们的系统的最佳性能是通过分别调整训练和测试权重来实现的。 关于权重的最早且引用最多的论文之一是Potamianos和Graf [134]。作者利用同步AV特征用最大肃然分别训练了具有相同拓扑的纯音频和纯视频单流HMM。通过组合两个单流HMM获得两流HMM。然后引入每个流的对数似然的权重指数。他们使用最小分类误差判别准则来估计该指数。但是,也可以使用其他标准。例如,参见[135]使用最大互信息来执行相同的任务,[136]使用最大熵原理。

Potamianos和Graf的方法被许多研究人员采用。例如,Garg [137]也使用MSHMM,他们提出了观测中包含的类别信息的两个可靠性指标,然后针对AV流计算它们。指数exponents建模为四个可靠性指标的S形加权函数。使用训练数据标签的最大条件似然来计算与每个指标相关的权重。

基于[138]和[137]中引入的方法,并利用相同的模型,Marcheret等人[139]集中研究特征选择以获取AV流的可靠性reliability,以及基于此类特征的权重估计。他们像以前的工作一样考虑了似然likelihood,并且还分析了基于声学信号的特征。为了估计权重,使用了S形函数,并提出了高斯混合模型(GMM)估计的两个变体。

Gurban等人遵循的方法[140]还基于找到流可靠性的估计量并将其动态映射到流权重。作者直接从每个分类器估计流置信度。如果在后部分布中出现一个清晰的峰值,则该流可靠。否则,歧义性很强,且模态不可靠。它使用熵来衡量流的可靠性。提出了几种从熵到权重的映射。Lee and Park [141]讨论并比较了模态可靠性的不同定义。Rajavel和Sathidevi[142]提出了一种基于遗传算法的可靠性测度,最终权重与声学和视觉HMM输出的可靠性测度成比例。他们描述了一种基于神经网络的融合方法,该方法使用了两种模态的可靠性指标,并在各种噪声条件下产生了鲁棒性识别性能。

特里等[143]提出了一种基于提取的视频特征而不是视频序列本身的视频可靠性度量video reliability metric。这些特征是从干净的数据clean data中提取的,并通过带有内存的矢量量化器发送,以便在训练过程中估算给定音频状态的视频状态的条件概率质量函数(PMF)。此条件PMF与音频流可靠性指标(例如音频信噪比(SNR)一起用于确定任何给定时间的AV流权重。

在多说话人环境中,为了使系统对声学噪声具有鲁棒性,Shao和Barker [144]使用基于AV似然分量的加权组合的得分替换了状态似然,并且允许权重随帧而变化。加权过程使用人工神经网络(ANN)从完整似然数据中学习SNR。SNR在Estellers等人的工作中也用作可靠性度量[145]。他们提出了一种动态方案,其中权重是从流可靠性的瞬时度量中得出的。作者提出了对音频流的置信度度量,并研究了如何将其映射到权重,以便在嘈杂的训练数据集中获得最小的单词错误率。

当将CHMM用于AV ASR时,已经采用了各种确定流权重的方法。例如,Nefian等[146]修改了每个观测条件似然的概率来处理不同级别噪声。通过实验获得分配给每个模态的权重,以使特定声学SNR级别的平均识别率最大化。Abdelaziz和Kolossa研究了带有CHMM的多层感知器的使用[109]。最后,Addelaziz等[147]使用EM算法来估计CHMM上下文中的动态流权重。

Terry和Katsaggelos[11]提出了一种使用DBN的AV自动语音识别的新模型。流权重直接合并到图形模型中,音素/音素模型转换为音素/视位素模型。对该系统进行了评估,并与最近提出的利用带噪声音频的大词汇量连续语音识别(LVCSR)任务的系统进行了比较。通过使用视位素更准确地对视觉流进行建模,系统可提供更高的识别率。Heckmann等人对AV信号提供的信息进行整合。[138]在后验概率水平,使用所谓的独立积分模型。他们分析了不同的加权方案,并且在无噪声环境下使用ANN/HMM学习了它们的系数(另请参见[148])。


▶ C.深度学习 ◀

深度学习(DL)的定义是[149]:“一类机器学习技术,它利用非线性信息处理的许多层来进行有监督或无监督的特征提取和转换,以及模态分析和分类。”它位于神经网络,人工智能,图形建模,优化,模态识别和信号处理的交叉领域。人类信息处理机制(例如视觉和听觉)表明需要深度架构来提取复杂的结构并从丰富的感官输入中构建内部表示。 DL在许多研究领域中表现出了非常好的性能,例如对象识别,计算机视觉,信息检索,语言建模和自然语言处理[149]。它也已用于多峰融合[150] – [153]和AV融合中的表示学习[115]。 Ngiam等人[115]介绍了三种主要的深度表示学习方法,我们在本文中也采用了以下三种方法:

•多峰融合学习multimodal fusion learning;

•跨模态学习cross-modality learning;

•共享表示学习shared-representation learning。

这三种学习方法都包括以下三个阶段:1)无监督的深度特征学习; 2)监督训练;和3)测试。深度网络已应用于无监督特征学习,即该网络用作音频和视频特征提取器;然后,在所有这三种学习方法的训练和测试阶段中都将使用由此产生的功能。接下来,我们根据上述三种学习方法来回顾文献。


1)多模态融合学习

在多模态融合学习环境中,与大多数多模态工作一样,这些模态在所有三个阶段都可用。一种选择是分别针对音频和视频流训练深度神经网络。然后,训练后的模型的输出,即提取的特征,可以用作数据的新表示。另一种选择是在连接在一起的音频和视频数据上训练模型[参见图5(a)]。第三种选择是在每种模态的预训练层上贪婪地训练深度模型。在AV语音识别中,从两个单独的AV输入模型获得的输出可以分别非正式地视为音素和视位素。然后将输出提供给另一层,以对模态之间的关系建模[见图5(b)]。该模型是由DL建模中的堆叠思想stacking idea激发的。

视听融合综述(三)Audiovisual Fusion: Challenges and New Approaches

图5.用于特征学习的网络架构([115])。 a)连接音频和视频矢量并采用单个输入网络。(b)两路输入网络,具有音频和视频流的单独输入。

几位研究人员在AV融合中采用了这种策略。 Ngiam等人[115]的工作为语音分类提供了一个例子。他们使用受限的Boltzmann机器(RBMs1)[154]进行特征学习,并研究了许多学习架构。他们为音频和视频训练单独的RBM,为连接的音频和视频特征训练一个浅RBM模型[见图5(a)],以及双峰深度置信网络(DeBN2)模型[见图5(b)]。

在另一篇著作中,金等人[155]使用了一些DeBN模型,类似于Ngiam等人介绍的模型,[115]用于情绪检测任务。他们测试在提供模态到输入层之前或从输出层获得特征之后执行的几种特征选择技术。他们还研究了通过在DeBN的最后一层添加节点数较少的新层来减少特征的效果。与基准系统相比,可以获得更好的性能,尤其是对于未完全达成协议的非原型数据。 Noda等 [116]也提出了一种利用两种不同模型从音频和视频中提取抗噪特征的抗噪AV ASR系统。它们分别采用深度降噪自动编码器和卷积神经网络(CNN)编码器来表示AV特征。具有各种强度的人造高斯噪声被添加到音频特征(即MFCC和对数梅尔卡尔滤波器滤波器LMFB),以产生嘈杂的特征。利用干净的这些特征来训练深度降噪自动编码器。为了学习视频表示,对CNN进行视觉特征训练,即来自嘴巴区域的像素作为输入,而音素标签作为输出。自动编码器和CNN的输出使用MSHMM建模。该系统遭受MSHMM中音频和视频流的静态权重的影响。另外,应该为每个演讲者训练一个独立的CNN。然而,他们展示了他们的方法在使用DL技术为音频和视频提供抗噪鲁棒性表示中的有效性。

在Huang和Kingsbury[156]的另一篇著作中,视音频输入被提供给两个独立的DeBN。从两个DeBN获得的输出已通过两种方式加以利用,例如:1)得分以估计后验概率;然后将这些分数进行积分,并用作HMM的状态后验概率; 2)中层代表;两个DeBN的输出被串联并提供给第三个DeBN,然后用作常规GMM-HMM系统的输入。AV连续数字识别是他们实验中使用的任务。结果表明,与传统的GMM/HMM系统相比,它们的两个基于DeBN的系统在嘈杂的环境中表现更好,但在干净的条件下却不然。


2)跨模态学习 Cross-Modality Learning

与多模态融合学习相比,使用这种方法,在训练和测试中只能呈现一种模态。当来自其他模态的未标记数据可用于训练深度网络进行特征学习但在接下来的两个阶段中不可用时,此技术很有用。在[115]中提出的深度自动编码器使用了一种跨模态学习方法。最初,以所有模态训练DeBN [与图5(b)相同的结构]。然后,在测试期间将与可用模态相对应的层的输出提供给两个网络,例如RBM,以重构两种模态。训练后,深度编码器中间层的输出可用作新的特征表示。通过发现模态之间的相关性,该深度编码器可以仅使用模态之一来重构其他模态(参见图6(a))。在如果有视频可用而没有音频的情况下,Ngiam等[115]在训练和测试阶段可以更好地表示视频。


3)共享表示学习 Shared-Representation Learning

跨模态学习的问题在于,对于具有多种模态的情况,需要训练的模型数量呈指数增长。为了解决这个问题,在[115]中使用人工噪声数据提出了一个完整的双峰深度自动编码器。受深度降噪自动编码器的激励,将一种模态设置为零的示例添加到训练数据中。这样,学习的模型将对丢失的模态具有鲁棒性,并且可以在监督的学习和测试阶段中利用模态的不同组合[参见图6(b)]。

这是有关DL方法的一些说明。

•多模态融合学习方法是使用最广泛的深度AV融合方法。此方法可以使用各种深度网络体系结构,这提供了根据当前任务和可用资源进行适应的可能性。但是,应仔细选择特定的体系结构。例如,由于原始音频和视频数据之间的相关性是高度非线性的,因此网络很难从级联特征中学习这些相关性,图5(b),而无需使用足够深的网络。

•多模态融合学习方法的主要问题在于,所有模态都应在以下三个阶段中都可用:特征学习,训练和测试。当然,这并非总是可能的。另一方面,目前可以获取大量未标记的数据。拥有一种将这些数据用于特征学习的方法将是非常微不足道的。这可以通过交叉模态和共享表示学习来完成。 •多模态学习与多任务学习的概念紧密相关,多任务学习是一种使用共享表示来学习同时解决多个相关问题的机器学习方法[149]。学习领域或任务跨越几种模态。多任务学习通常应用于没有或只有很少训练数据可用于目标任务域的条件。显然,多任务学习自然符合DL的范式,在该范式下,跨任务的共享表示和统计强度(例如,涉及音频和视频的单独模态的那些)和共享强度预计将极大地促进资源少或资源少的许多机器学习场景。

•尽管在许多基于DL的AV融合技术中,使用了RBM,DeBN和CNN,但根据任务和资源,也可以采用其他模型变体。例如,Shah等人[157]提出了一种多模态情绪识别框架,该框架使用了基于能量的RBM变体,称为复制的softmax模型(RSM)。以面部表情,语音和语言作为源数据测试了情感识别方法的有效性。


▶ D.多视图学习Multiview Learning ◀

多模态任务(例如语音处理)是多视图学习领域技术的自然应用。多视图学习是一组利用视图之间的关系(此处是音频和视频)来学习比分别从每个视图或从两个视图的简单串联中学习的更好的模型的技术。即使在测试时只有两个视图之一可用,多视图学习技术通常也会生成可以使用的模型。此属性非常有用,因为有可能收集AV训练数据,而在测试时只能访问音频或视频。其中一个视图可能会完全丢失,或者可能被噪声严重破坏,因此希望能够优雅地处理这种情况。

多视图学习技术在AV语音处理中的应用仍处于起步阶段,大多数工作集中在小型数据集和简单任务上。在本节中,我们将回顾迄今为止在该类别中所做的工作,以及一些自然的扩展,这些扩展可能是将来工作的丰硕成果。


1)协同训练Cotraining

协同训练[158]是多视图学习的一种经典技术,这是一种半监督的方法,用于学习一对分类器,每个视图一个。在协同训练中,有少量“种子”标签数据seed labeled data(用于学习初始的一对分类器)和大量未标签数据。然后,这两个分类器交替出现:1)标记最有信心的未标记数据点; 2)重新训练分类器。其动机是利用多个视图来标记未标记的数据,从而有效地增加训练数据的数量并提高性能。

Christoudias等人[159]开发了一种与协同训练有关的方法,称为共适应dubbed coadaptation。在这种方法中,使用初始的一对分类器来标记来自新说话者或域的数据,并且最可靠的标记将保留下来并用作应用协同训练的种子集。他们将这个想法应用于训练AV Viseme分类器,在这种情况下可以训练新说话者的模型而无需花费很长时间进行注释。尽管在单个域或场景中几乎没有标记数据但大量未标记数据可用的情况下使用了协同训练,但对于从某个域(例如一组说话者或环境条件)可获得足够的标记数据的情况下,协作是有益的,但没有针对新域或场景(例如新演讲者)的带标签数据。


2)多视图特征学习Multiview Feature Learning

通过利用视图之间的关系,多视图学习还可以用于学习更好的表示或特征。在AV语音处理的情况下,当然可以使用标准声学特征和图像特征的任何组合。但是,可能可以改善这些标准特征。用于特征学习的多视图技术通常利用以下事实:两个视图中的噪声源(或更常见的是,讨厌的参数)是独立的或至少是不相关的。例如,声学视图可以包括背景噪声,而视频可以包括照明变化。因此,通过寻找在某种意义上说两个视图共有的特征,多视图特征学习技术可以消除或减少这种噪声。此外,如果可以在真正的公共特征空间中表示音频和视频视图,则可以直接比较声音和视觉信号,以进行跨模态检索或在一种模态上进行训练并在另一种模态上进行测试。

一种用于多视图特征学习的典型方法是使用规范相关分析canonical correlation analysis(CCA)来学习每个视图的转换[160],[161]。特别是,CCA会找到一对投影,每个视图一对,从而使投影特征尽可能地高度相关。理论结果(例如[162])表明,CCA投影可以改善某些条件下的类别分离,例如两种视图中不相关的噪声。在[162]中,通过将来自AV语音记录的音频或视频帧聚集到说话人群集中,实验证明了这一点。他们发现,基于CCA的聚类功能大大提高了说话人的聚类质量,并且与原始声学或视觉空间中的聚类相比,它对噪声的鲁棒性更高。 Livescu和Stoehr [163]利用了相同的CCA投影特征来提高说话者对噪声的识别能力。通过结合视觉(嘴唇)特征,音频特征和通过CCA发现的相关音频-嘴唇特征,AV说话人识别在[164],[165]中得到了改进。通过使用CCA,他们还可以找到最佳的时间偏移,以使音频和视频相互同步,这也有助于提高识别性能。

CCA已通过内核[166]和深度神经网络[167]扩展到非线性投影的情况,但是据我们所知,非线性CCA尚未用于AV语音处理。另一方面,近来已经开发了具有其他目的的非线性特征学习方法,并将其用于AV语音,通常是使用深度网络。例如,正如已经提到的,Nagim等人提出了改进的音频/视频表示 [115]使用具有各种结构的深层自动编码器,它们学会同时从两个输入端或单独从视频中重构出音频和视频,并使用学到的表示对仅给定视频或音频和视频的给定的语音数字/字母进行分类,如上一节。他们发现学习的表示比原始特征和单模态自动编码器要好。另外,通过将CCA应用于学习的音频/视频自动编码器的隐藏层,它们可以获得进一步的改进。另外,他们能够学习联合表示,以便他们使用一种模态数据训练分类器,并使用另一种模态数据对其进行测试 [115]中的结果使用结构相似的深玻尔兹曼机器在[168]中得到了进一步改善。与自动编码器不同,深层的Boltzmann机器学习一种生成模型,该模型可以从缺少的模态中显式生成数据。


3)测量视听异步

使用跨模态相关性cross-modal correlation的想法已经超越了多视图特征学习的范畴,被应用于检测和测量AV同步或异步。例如,在[169]和[170]中,音频和视频信号之间的相关/规范canonical相关被用作AV同步的量度。在[7]中使用了类似的措施(最成功的是像素方向的高斯互信息)来在视频中定位说话者并识别成对的活跃说话者。在[171]中,音频和视频信号通过经过训练的单层感知器进行映射,以最大化其输出之间的相互信息,并使用得到的映射来定位说话者,并在出现多个同时发言者的情况下增强所需说话者的语音 。


▍6.CONCLUSION ▍

在总结本文时,我们总结了对AV融合的看法以及可能大发展走向。在对最近的出版物进行分析之后,可能会认为该研究领域在最近的发展方面并没有取得太大进展。这并不意味着发布的工作结果没有价值,但是尽管主要思想已经非常成功,但似乎在最初获得成功之后并没有那么多追求。除了在解决本文中遇到的一些挑战(即流加权和异步)方面取得了成功的工作,就很难很好地建模可靠性和正确处理异步而言,这些主题上仍有很多工作要做。对于AV(结构化SVM,CRF等)并没有太多判别式结构化建模,并且我们期望用于异步的各种图形模型应该从中受益。

DL无疑将提高其音视频融合性能,就像它在其他每个领域所涉及的一样。它仅开始用于视听,但已经获得的初步结果令人鼓舞。另一个可能的未来变化是,多模态工作可能开始变得与具体模态无关。 DL在某些领域发挥了这种作用,在这些领域中,基本领域特定的工作已被可从输入信号中学习的深度网络所代替。这并不意味着不需要该领域知识,只是在这种趋势下,多模态应用将开始较少关注特定的模态。

AV speech的多视图学习正在成为一种有前途的方法。最近的工作才刚刚开始利用多视图技术。如上所述,某些技术,例如非线性CCA,尚未应用于此领域的问题。此外,除了上述非常初步的工作之外,还有很多空间来探索使用多视图技术来处理AV噪声。我们认为,多视图学习实际上还不是开创性的,并且我们希望它将成为未来研究的一个非常丰硕的领域。

如前所述,尽管存在许多AV数据库,但它们中可能没有一个具有所有所需的特性,例如足够的数据量,实际可变性,标准实验设置和评估措施。这限制了该领域的进步。也许通过更好地利用“in the wild”中存在的数据(例如YouTube),可以帮助社区处理现实的嘈杂数据。由于大多数这些数据都是未标记的,因此深度学习和多视图学习可能是有效的。使用DL,可以以无监督的方式学习数据表示,而无需手工设计新功能集。通过协同训练,可以对分类器最有信心的未标记数据进行标记。

最后,可以得出结论,有人可能会认为AV融合是一个非常特殊的领域,但使它特别的一件事是,那里有如此多的AV数据,例如YouTube视频,而不是其他多模态数据。它们将为我们共同设想的视听融合的蓬勃发展和发展做出贡献。


该综述剩余部分放在《视听融合综述(一)(三)》两篇博文内,感兴趣的朋友可以关注我的博客,或知乎主页:

https://www.zhihu.com/people/miao-xiao-di/activities