百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
运用百度语音技术API完成语音识别与合成项目开发
百度语音技术简介
基本的语音交互流程:
输入语音:
声学匹配:
文本匹配:
迭代优化:
语音唤醒:
语音唤醒的设计及影响因素:
声纹识别:
声纹识别的设计及影响因素:
语音合成:
基于深度学习的语音合成训练:
语音合成的设计及影响因素:
语音自训练平台接入流程
语音自训练平台链接:
https://ai.baidu.com/tech/smartasr
主要是数据集的配置,训练是全自动的:
16k 16bit单声道pcm/wav文件
8k 16bit 单声道pcm/wav文件(客服场景) ;
音频文件名请不要包含中文、特殊符号、空格等字符;
所有音频需打包压缩为zip文件格式后上传, zip大小不超过100M,解压后单个音频大小不超过150M
标注文件内容应与音频文件相对应的内容一致(单条音频对应文本长度;不超过5000字);
标注文件格式应为txt格式,GBK编码;
标注tx(文本中,由音频名称、标注内容两部分构成,用"tab"区隔,带后缀或不带后缀均可,以下为格式示例:
01.pcm (用tab键换列)今天天气真不错。
上传数据集:
选择基础模型:
在训练模型前,我们需要上传热词和句篇:
这里的热词和句篇相当于训练集:
热词记得选择gbk编码:
下面等待训练结束:
训练结束后可以查看训练结果,进行迭代训练或者是模型上线:
语音识别和唤醒接入流程
开发流程:
下面是语音识别的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre
语音唤醒的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75
语音基础介绍与场景应用
能力及应用: