声纹识别笔记(二)ivector PLDA 以及最新模型

GMM-UBM

声纹识别笔记(二)ivector PLDA 以及最新模型

GMM:均值、方差、权重

UBM:共性特征

i-vector

声纹识别笔记(二)ivector PLDA 以及最新模型

MAP说话人自适应

m:UBM的均值(已知)

s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)

T:训练得到

w:特定说话人的ivector

一般只更新均值,不更新方差

DNN-based ivector

声纹识别笔记(二)ivector PLDA 以及最新模型

d-vector

声纹识别笔记(二)ivector PLDA 以及最新模型

输入之前的30帧和之后的10帧,总共40帧Fbank作为输入,中间通过N层全连接层,**函数是maxout(可以拟合任何一种凸函数),加dropout(随即关闭一部分神经元使之无效,防止过拟合),d-vector是最后一个隐层的向量

声纹识别笔记(二)ivector PLDA 以及最新模型

距离度量

余弦距离

声纹识别笔记(二)ivector PLDA 以及最新模型

LDA

声纹识别笔记(二)ivector PLDA 以及最新模型

PLDA:效果略胜于LDA

声纹识别笔记(二)ivector PLDA 以及最新模型

Triplet Loss

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

+当中括号里面是负数是,取0

声纹识别笔记(二)ivector PLDA 以及最新模型

p=2欧式距离

x-vextor 15-16年

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

VGGVox

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型用小卷积核增强建模能力

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

VGG参数难训练,效果不好

CNN输入必须保证输入是同样大小

Deep speaker(Baidu)

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型循环神经网络

声纹识别笔记(二)ivector PLDA 以及最新模型

 

 

Batch上归一化

声纹识别笔记(二)ivector PLDA 以及最新模型

GE2E Loss(Google)

声纹识别笔记(二)ivector PLDA 以及最新模型

声纹识别笔记(二)ivector PLDA 以及最新模型

Sji,j尽可能大(跟自己相比)

总结

声纹识别笔记(二)ivector PLDA 以及最新模型

建议

  • VAD一定要做,通过帧能量(MFCC)给一个下限,只保留有说话的部分
  • 模型融合,多个模型的得分进行融合,e.g. embedding,特征维度上的融合,
  • CNN输入要剪成一样的大小,RNN则不必