您的位置: 首页 > 文章 > 百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

分类: 文章 • 2023-12-29 22:10:01

运用百度语音技术API完成语音识别与合成项目开发

百度语音技术简介
语音自训练平台接入流程
语音识别和唤醒接入流程
语音基础介绍与场景应用

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

百度语音技术简介

基本的语音交互流程:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

语音识别效果不好的三大原因

输入语音:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
声学匹配:

文本匹配:

优化方法

迭代优化:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
语音唤醒:

语音唤醒的设计及影响因素:

声纹识别:

声纹识别的设计及影响因素:

语音合成:

基于深度学习的语音合成训练:

语音合成的设计及影响因素:

语音自训练平台接入流程

语音自训练平台链接:
https://ai.baidu.com/tech/smartasr

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
主要是数据集的配置,训练是全自动的:

语音文件格式要求

16k 16bit单声道pcm/wav文件
8k 16bit 单声道pcm/wav文件(客服场景) ;
音频文件名请不要包含中文、特殊符号、空格等字符;
所有音频需打包压缩为zip文件格式后上传, zip大小不超过100M,解压后单个音频大小不超过150M

标注文件格式要求

标注文件内容应与音频文件相对应的内容一致(单条音频对应文本长度;不超过5000字);
标注文件格式应为txt格式，GBK编码;
标注tx(文本中，由音频名称、标注内容两部分构成,用"tab"区隔，带后缀或不带后缀均可，以下为格式示例:
01.pcm (用tab键换列)今天天气真不错。

百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
上传数据集:

选择基础模型:

在训练模型前,我们需要上传热词和句篇:

这里的热词和句篇相当于训练集:

热词记得选择gbk编码:

下面等待训练结束:

训练结束后可以查看训练结果,进行迭代训练或者是模型上线:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)

语音识别和唤醒接入流程

开发流程:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)
下面是语音识别的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

语音唤醒的开发文档:
https://ai.baidu.com/ai-doc/SPEECH/Vk38lyr75

语音基础介绍与场景应用

能力及应用:
百度AI产品与应用学习路线之语音技术(百度云智学院学习笔记)