音频的基本概念

1 音频的基本概念

1.1 音频的概念

音频数据的承载方式最常用的是脉冲编码调制 脉冲编码调制,即 PCM。

在自然界中, 声音是连续不断的,是一种模拟信号,那怎样才能把声音保存下来呢?

那就是把 声音数字化,即转换为数字信号。

我们知道声音是一种波,有自己的 振幅和频率,那么要保存声音,就要保存声音在各个时间点上的振幅。而 数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。

根据奈奎斯特采样定理 : 为了不失真地恢复模拟信号, 采样频率应该不小于模拟信号频谱中最高频率的 中最高频率的 2倍。

根据以上分析,PCM 的采集步骤分为以下步骤:
模拟信号 模拟信号 -> 样 采样 -> 化 量化 -> 码 编码 -> 数字信号

音频到底是什么?
音频这个专业业术语, 人类能够听到的所有声音都称之为 音频,它可能包括噪音、 声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成 CD,这时候所有的声音没有改变,因为 CD 本来就是音频文件的一种类型。而 音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡 – 就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。

1.2 音频相关的术语

采样率:
采样率,即采样的频率。

上面提到,采样率要大于原声波频率的 采样率要大于原声波频率的 2 倍,人耳能听到的最高频率为 20kHz,所以为了满足人耳的听觉要求,采样率至少为 40kHz, 通常为 44.1kHz,更高的通常为 48kHz。

注意:人耳听觉频率范围[20Hz, 20KHz]。

采样位数:
涉及到上面提到的振幅量化。 波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数 采样器会采用一个固定的位数来记录这些振幅值,通常有8位 、16 位 、32位。

注意:位数越多,记录的值越准确,还原度越高。但是占用的硬盘空间越大。

音频编码:
由于数字信号是由 0,1 组成的,因此,需要将 幅度值转换为一系列 0 和 1 进行存储,也就是 编码,最后得到的数据就是数字信号:一串 一串 0 和 和 1 组成的数据组成的数据。

过程如下:

音频的基本概念
声道数:

声道数,是指 支持能不同发声(注意是不同声音)的音响的个数。

音频的基本概念
码率:
码率,是指一个数据流中每秒钟能通过的信息量,单位bps(bit per second)。

码率 = 采样率 * 采样位数 * 声道数。

音频格式:
是指要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采 样和量化构成,人耳所能听到的声音,最低的频率是从 20Hz 起一直到最高频率 20KHZ,20KHz 以上人耳是听不到 的,因此音频文件格式的最大带宽是 20KHZ,故而采样速率需要介于 40~50KHZ 之间,而且对每个样本需要更多的量化比特数。

音频数字化的标准是每个样本 16 位-96dB 的信噪比,采用线性脉冲编码调制 PCM,每一量化步长都 具有相等的长度。在音频文件的制作中,正是采用这一标准。

常见的音频格式有 常见的音频格式有:CD 格式、WAVE(*.WAV)、 AIFF、MP3、MIDI、 AAC、WMA。