DeepLearing—CV系列(二十四)——语言识别入门

一、语言识别的几类领域

(1)语言识别
(2)语言唤醒
(3)语言命令
(4)声纹识别
(5)TTS(文字转语音)
(6)语音转图像
(7)生成歌曲

二、音频参数

(1)采样率:每秒采集数据的次数
(2)采样精度:每次采集数据的位数
1字节(8位):0到255(无符号)-128到127(有符号)
2字节(16位):0到65535 -32768到32765(有符号)
4字节(32位):0到4294967295 -2147483648到2147483647(有符号)
(3)通道数:存在几路音频
左声道、右声道等等
(4)比特率(解码速度):针对编码格式,表示压缩编码后每秒的音频数据量大小
单位:bps、bit/s

三、波形

DeepLearing—CV系列(二十四)——语言识别入门
声波是连续的(不能直接放到计算机里进行计算,计算机只能处理离散的数据),所以连续的波形需要转换成离散的数据,那么就要进行采样,可以均分采样。1秒采集8000个数据,采样率就是8000(Hz)。采样率越高,信号损失就越小

奈奎斯特定理的理解:采样频率应该大于原始模拟信号的最大频率的两倍,信号就不会失真。

四、音频格式

PCM:最原始的音频格式(未经编码的音频数据),一般不能直接播放。需要知道采样率、采样精度、通道数。
wav:知道采样率、采样精度、通道数+PCM。缺点:所占用的磁盘空间太大
mp3:有损压缩
无损压缩:依据算法压缩音频