AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

比赛简介:

赛事数据来自希尔贝壳的AISHELL-WakeUp-1唤醒数据库。录音内容为“你好,米雅” “hi, mia”的唤醒词。340名录音人在真实家居环境中录制,设置7个录音位,包括6个圆形16路PDM麦克风阵列录音板做远场拾音(16kHz,16bit)、1个高保真麦克风用做近场拾音(44.1kHz,16bit)。

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

The setup of the AISHELL-WakeUp-1 database

本赛事数据为抽取AISHELL-WakeUp-1的高保真近讲Mic、1m、3m、5m的中文内容“你好,米雅”数据,其中训练集(254人)、开发集(42人)和测试集(44人)。数据详细信息可参考 AISHELL-WakeUp-1.pdf。Download

任务

多通道远场文本相关声纹识别:

Track1:近场数据注册,远场数据测试

即用高保真近讲Mic作为注册语音,将1m, 3m, 5m的阵列语音作为测试语音。

Track2:远场数据注册,远场数据测试

即用距离说话人1m的阵列语音作为注册语音,将1m, 3m, 5m的阵列语音作为测试语音。

 

比赛结果:第一名是小米智能科技。

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

看看第一名的小米团队做了哪些优化:

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

首先是数据处理,经过测试,任务一效果不好。将近场的麦克风采样率从44K降低为16K,识别效果变好。

然后还需要扩充训练数据集,比赛提供的训练数据集一共99万条语音,经过加躁等处理后,变成了200万条语音。

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

默认的VAD效果不好,自己重新训练一个kw-vad。

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

经过训练集扩充之后的错误率一直在下降。

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

物理设备非常豪华。

 

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

模型是3个模型,而不是一个模型。

 

AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

最后打分的结果是将3个模型的结果加权。

脚本可以参考kaldi的sre16等。