语音唤醒

唤醒可以看成是一种小资源的关键词检索任务，其中小资源是指计算资源比较小和空间存储资源比较小，因此它的系统框架跟关键词检索的系统会有一定的区别，目前常用的系统框架主要有Keyword/Filler Hidden Markov Model System和Deep KWS System两种。

语音唤醒

第一种被称为基于HMM的Keyword and Filler系统，这类系统的关键是上图中左侧的解码模块，它与语音识别器中的解码器类似，也是通过维特比算法来获取到最优的路径。基于大词汇量连续语音识别(LVCSR)的KWS系统可以根据用户的需求灵活的更改关键字，但基于LVCSR的系统需要生成丰富的词格，关键字搜索需要大量的计算资源。这些系统通常是为了搜索大型音频数据库中的关键词而设计。

语音唤醒

第二种系统仍然采用Keyword and Filler架构，但引入了深度神经网络，不再采用解码这样一个步骤，直接是由端到端的模式，即输入是语音，输出直接是关键词。这样的系统包括三个部分：如上图，第一步是特征的提取，第二步通常是一个神经网络，它的输入是语音特征，输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网络是以帧为单位输出后验值的，就需要第三步对后验值以一定的窗长进行平滑，平滑后的后验值如果超过一定的阈值会被认为是唤醒了。

语音唤醒

基于声学和LVCSR的关键词识别系统的组合。用LVCSR的词格来计算KWS系统的置信度，以此来降低系统的误唤醒率。本文还针对如何降低系统的计算量做了一定的探讨。

语音唤醒

这篇文献来自佐治亚理工学院，是比较典型的HMM模型算法。主要分为两步。第一阶段用上下文感知关键词模型和 9-state的废料模型设计声学模型，第二阶段基于MLP对第一阶段计算的结果进行确信，即计算置信度。

语音唤醒

这篇文献是亚马逊训练Alexa的方法，是基于HMM的模型，做了TDNN的优化。语音唤醒

陈果果的这篇论文采用DNN网络，处理的主要流程包括三部分：特征提取层+深度神经网络（DNN）+后处理判别模型

语音唤醒

2014年有人使用CNN进行语音识别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大，而KWS方案对计算量要求有一定的限制，所以本论文中他们提出了优化了版本的CNN方案。

语音唤醒

这篇文献采用LSTM网络，还是采用后处理平滑的方法进行置信度计算。相比DNN网络而言，效果提升非常明显。

语音唤醒

这篇文章来自于百度，采用了CRNN的网络结构，同时为了减小模型的计算量，文章中探索了不同模型结构和参数来获得一个相对更优的效果。CRNN是将CNN和RNN融合在一个网络当中，CNN的优势在于挖掘局部的信息，而RNN的优势在于学习长时的上下文信息，两者的结合可以起到互补的作用。之前百度有在LVCSR任务上采用了这样的模型，在采用CRNN的同时使用CTC目标函数进行训练，在语音识别的任务上获得了很好的效果，他们希望把这样的模型引入到唤醒任务当中，但是CTC目前都是在模型规模比较大、数据量比较大的情况下得到较好的效果，这一点并不适用于唤醒的任务，而且文章中在唤醒的实验上也表明了目标值采用CTC没有获得预期的效果，因此在本文中实际依然采用交叉熵作为目标函数。

语音唤醒

这篇文献探讨了深度可分离卷积神经DS-CNN在资源受限的设备上的应用与性能，同时也与其他神经网络结构进行比较。包括DNN,CNN,RNN,CRNN等。

语音唤醒

这是一篇来自小米的文献，基于注意力机制在DNN,LSTM,GRU等网络上做了相关实验，证明注意力机制用在关键字唤醒上同样比较有效。

相关推荐