百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

运用百度语音技术API完成语音识别与合成项目开发

  1. 百度语音技术简介
  2. 语音自训练平台接入流程
  3. 语音识别和唤醒接入流程
  4. 语音基础介绍与场景应用

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

百度语音技术简介

基本的语音交互流程:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

语音识别效果不好的三大原因

输入语音:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
声学匹配:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
文本匹配:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

优化方法

迭代优化:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
语音唤醒:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
语音唤醒的设计及影响因素:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
声纹识别:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
声纹识别的设计及影响因素:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
语音合成:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
基于深度学习的语音合成训练:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
语音合成的设计及影响因素:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

语音自训练平台接入流程

语音自训练平台链接:
https://ai.baidu.com/tech/smartasr

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
主要是数据集的配置,训练是全自动的:

语音文件格式要求

16k 16bit单声道pcm/wav文件
8k 16bit 单声道pcm/wav文件(客服场景) ;
音频文件名请不要包含中文、特殊符号、空格等字符;
所有音频需打包压缩为zip文件格式后上传, zip大小不超过100M,解压后单个音频大小不超过150M

标注文件格式要求

标注文件内容应与音频文件相对应的内容一致(单条音频对应文本长度;不超过5000字);
标注文件格式应为txt格式,GBK编码;
标注tx(文本中,由音频名称、标注内容两部分构成,用"tab"区隔,带后缀或不带后缀均可,以下为格式示例:
01.pcm (用tab键换列)今天天气真不错。

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
上传数据集:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
选择基础模型:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
在训练模型前,我们需要上传热词和句篇:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
这里的热词和句篇相当于训练集:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
热词记得选择gbk编码:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
下面等待训练结束:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
训练结束后可以查看训练结果,进行迭代训练或者是模型上线:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

语音识别和唤醒接入流程

开发流程:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
下面是语音识别的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

语音唤醒的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75

语音基础介绍与场景应用

能力及应用:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)