声学模型学习笔记(三) DNN-HMM hybrid system

                     

architecture

声学模型学习笔记(三) DNN-HMM hybrid system
声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率。

decoding

实际的语音识别解码的时候使用的是似然概率:

w ^ =argmax w p(w|x)=argmax w p(x|w)p(w)/p(x)=argmax w p(x|w)p(w) w^=argmaxwp(w|x)=argmaxwp(x|w)p(w)/p(x)=argmaxwp(x|w)p(w)

DNN的拼帧方法在一定程度上减弱了HMM的独立性假设,更符合实际关系。
3.对senones建模
使用cd-phone的状态比使用monophone的state建模效果更好。
4.pretraining
层数小于5的时候pretraining比较重要;当层数增加以后,pretraining收益变小,但是pretraining可以保证训练的鲁棒性,避免比较糟糕的参数初始化。
5.better alignment
更好的模型可以获得更准确的alignment,除了使用GMM-HMM的模型进行对齐,还可以使用DNN-HMM模型对训练数据进行对齐。

参考文献

《automatic speech recognition a deep learning approach》 chapter 6

           
                     

architecture

声学模型学习笔记(三) DNN-HMM hybrid system
声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率。

decoding

实际的语音识别解码的时候使用的是似然概率:

w ^ =argmax w p(w|x)=argmax w p(x|w)p(w)/p(x)=argmax w p(x|w)p(w) w^=argmaxwp(w|x)=argmaxwp(x|w)p(w)/p(x)=argmaxwp(x|w)p(w)

DNN的拼帧方法在一定程度上减弱了HMM的独立性假设,更符合实际关系。
3.对senones建模
使用cd-phone的状态比使用monophone的state建模效果更好。
4.pretraining
层数小于5的时候pretraining比较重要;当层数增加以后,pretraining收益变小,但是pretraining可以保证训练的鲁棒性,避免比较糟糕的参数初始化。
5.better alignment
更好的模型可以获得更准确的alignment,除了使用GMM-HMM的模型进行对齐,还可以使用DNN-HMM模型对训练数据进行对齐。

参考文献

《automatic speech recognition a deep learning approach》 chapter 6