一、语言识别的几类领域

（1）语言识别
（2）语言唤醒
（3）语言命令
（4）声纹识别
（5）TTS（文字转语音）
（6）语音转图像
（7）生成歌曲

二、音频参数

（1）采样率：每秒采集数据的次数
（2）采样精度：每次采集数据的位数
1字节（8位）：0到255（无符号）-128到127（有符号）
2字节（16位）：0到65535 -32768到32765（有符号）
4字节（32位）：0到4294967295 -2147483648到2147483647（有符号）
（3）通道数：存在几路音频
左声道、右声道等等
（4）比特率（解码速度）：针对编码格式，表示压缩编码后每秒的音频数据量大小
单位：bps、bit/s

三、波形

DeepLearing—CV系列（二十四）——语言识别入门
声波是连续的（不能直接放到计算机里进行计算，计算机只能处理离散的数据），所以连续的波形需要转换成离散的数据，那么就要进行采样，可以均分采样。1秒采集8000个数据，采样率就是8000（Hz）。采样率越高，信号损失就越小。

奈奎斯特定理的理解：采样频率应该大于原始模拟信号的最大频率的两倍，信号就不会失真。

四、音频格式

PCM：最原始的音频格式（未经编码的音频数据），一般不能直接播放。需要知道采样率、采样精度、通道数。
wav：知道采样率、采样精度、通道数+PCM。缺点：所占用的磁盘空间太大
mp3：有损压缩
无损压缩：依据算法压缩音频

DeepLearing—CV系列（二十四）——语言识别入门

文章目录

一、语言识别的几类领域

二、音频参数

三、波形

四、音频格式

相关推荐