On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification

On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification

作者:Rajath Kumar1, Vaishnavi Yeruva2, Sriram Ganapathy2

解决的问题

  • 将个性化关键字检测和依赖文本的的说话人识别使用卷积长短时记忆网络模型结合在一个系统中,初始的卷积特征映射由LMST循环网络进一步处理

数据集

使用WSJ和 LibriSpeech corpus的组合录音

method

使用多任务网络的TDSV-KWS系统,采用CLSTM和DNN联合框架,训练关键词识别和说话人识别。该模型使用一个大的上下文窗口(大约是感兴趣的关键字的持续时间)中的语谱图,并使用CNN特征嵌入对KWS和TDSV任务进行共享。

baseline

keyword spotting
使用Keyword/Filler neural network 方法,把和关键字相关的语音信号给一个真的标签,其他的被认为是错的或者填充的,训练网络来区分俩个类别。之前已经分别实现了前向传播,卷积,循环神经网络长短时记忆网络,BLSTM,CLSTMbaseline。
On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification