Deep Embedding Learning for Text-Dependent Speaker Verification

Deep Embedding Learning for Text-Dependent Speaker Verification

作者:Peng Zhang, Peng Hu, Xueliang Zhang
INTERSPEECH 2020 October 25–29, 2020, Shanghai, China

解决的问题

为说话人验证提出了一种有效的深度嵌入学习架构。

创新点

相比基于ResNet和TDNN的声纹识别,做了俩点改进

  1. 使用全连接网络编码说话人的短时文本信息
  2. 使用双向注意力池化机制建模长时文本信息并且集中于反应说话人特点的重要帧上。

方法

Deep Embedding Learning for Text-Dependent Speaker Verification

首先将Desnet作为帧层面的提取器,Desnet包含4层DenseBlock,每一个DenseBlock中有5个CNN卷积层(Conv2D), ELU(**函数)和IN(),然后使用双向注意力池化层将帧级别的特征转换到固定维的向量中,之后用俩层全连接的隐藏层来形成段层面的特征。
Deep Embedding Learning for Text-Dependent Speaker Verification

数据集

FFSVC2020中任务1和任务3的数据集