【论文笔记】Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems

题目

Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems

链接

https://arxiv.org/pdf/2010.04284.pdf

Contributions

运用迁移学习的知识，联合训练speech-to-intent 模型和text-to-intent模型，利用较多的text-intent数据作为基于speech-intent的端到端S2I(speech-to-intent)模型的补充
为了解决speech-intent数据集的稀缺，通过TTS系统把text-intent数据转换为speech-intent数据，以达到数据增强的目的。

亮点与启发

由于深度神经网络极度依赖于大量的数据来驱动得到较好的效果，而对于端到端的S2I系统， intent-labeled speech data太过稀缺了，为了比肩传统的模型（speech-text-intent）,需要设法弥补数据稀缺的问题。
为解决此问题的答案就是——迁移学习。

基于Text-intent类数据较多这一现状，使用类似bert的预训练模型，对基于speech-intent的声学模型进行“指导”，将知识迁移到需要的端到端S2I系统上。

文章重点

首先使用一般的语音-文本数据预训练一个一般的ASR模型。
使用语音-意图数据在此ASR的基础上训练初步的S2I（speech-to-intent）模型。如下图：

这样的好处是得到一个声学embedding层，此层把LSTM的所有hidden state做了一个时间平均，相当于概括了一整个语音序列的上下文，并以此对应预测一个意图（intent）。而在测试阶段，完成迁移后的ASR部分便可丢弃不用。
使用Bert预训练一个 text-to-intent模型。此模型使用的数据量较大，其输出具有较好的逻辑分布。
用1，2步得到的speech-to-intent模型与第3步模型联合训练，完成第二次知识迁移。
值得注意的是，分割线上下分别为两个不同的任务（multi-task），同时训练，共享最后一个shared DNN layer（这个layer由 text-only classification task即上面的BERT模型初始化得到），上下拥有各自的优化函数：
text branch： LCE(AE) + αLCE(T E).
speech branch： LMSE(AE, T E) + LCE(AE) + αLCE(T E)
MSE：mean squared error，此LOSS造成的参数更新只会反向传播到声学部分（speech branch），因为已经默认text部分是在大量数据下训练的，已经趋于完善，无需再进行自身对text-intent数据的学习。
除了以上尝试之外，本文还将text-intent文本通过TTS将文字转化成语音，构造了更多的speech-intent数据，直接训练端到端的模型。

实验结果

【论文笔记】Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems
可见，准确率最高的是使用20小时speech-intent数据直接训练端到端S2I系统，不过经过迁移学习的模型，即使是数据量小，也能获得不错的准确率表现。

引申

根据此文的思想，在处理端到端语音识别时，同样面临着speech-text成对数据较少，纯文本（text-only）数据较多的情况，这亦是目前端到端ASR系统提高识别准确率的瓶颈所在，我们是否也可使用类似的方法解决数据稀缺的问题，值得更加深入的思考和实践。

持续记录关于端到端语音识别论文与资料：
https://github.com/zyascend/End-to-End-Speech-Recognition-Learning

【论文笔记】Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems

题目

链接

标签

Contributions

亮点与启发

文章重点

实验结果

引申

相关推荐