声纹识别笔记(二)ivector PLDA 以及最新模型
GMM-UBM
GMM:均值、方差、权重
UBM:共性特征
i-vector
MAP说话人自适应
m:UBM的均值(已知)
s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)
T:训练得到
w:特定说话人的ivector
一般只更新均值,不更新方差
DNN-based ivector
d-vector
输入之前的30帧和之后的10帧,总共40帧Fbank作为输入,中间通过N层全连接层,**函数是maxout(可以拟合任何一种凸函数),加dropout(随即关闭一部分神经元使之无效,防止过拟合),d-vector是最后一个隐层的向量
距离度量
余弦距离
LDA
PLDA:效果略胜于LDA
Triplet Loss
+当中括号里面是负数是,取0
p=2欧式距离
x-vextor 15-16年
VGGVox
用小卷积核增强建模能力
VGG参数难训练,效果不好
CNN输入必须保证输入是同样大小
Deep speaker(Baidu)
循环神经网络
Batch上归一化
GE2E Loss(Google)
Sji,j尽可能大(跟自己相比)
总结
建议
- VAD一定要做,通过帧能量(MFCC)给一个下限,只保留有说话的部分
- 模型融合,多个模型的得分进行融合,e.g. embedding,特征维度上的融合,
- CNN输入要剪成一样的大小,RNN则不必