一.音视频基本概念

一.声音的物理性质

1.声音是波

2.声波的三要素:频率、振幅、波形

①.频率:代表音阶的高低,频率越高,波长越短

②.振幅:代表响度,响度就是能量大小的反映

③.波形:代表音色,就是同样频率和振幅,钢琴和小提琴的音色不同

人耳听力的频率范围在20Hz~20kHz

3.声音的传播介质:固体,液体,气体中传播,真空中不能传播

4.回声:传播介质遇到障碍物反弹回来,若两种声音传到我们耳朵中相差小于80毫秒是分辨不出来的

5.共鸣:两种频率相同的物体,敲击其中一个物体时另一个物体也会振动发声。证明了声音的传递过程也是一种能量传播。

 

二.数字音频:为了将模拟信号数字化,需要经过采样、量化、编码三个步骤

1.采样:在时间轴上对信号进行数字化。采样率一般是44.1kHz,代表一秒会采样44100次。

2.量化:是指在幅度轴上对信号进行数字化。比如用16比特的二进制信号来表示声音的一个采样。

3.编码:按照一定的格式记录采样和量化后的数字数据。比如顺序存储、压缩存储。

44100*16*2=1378.125kbps

采样率为44100Hz,量化精度为2字节(16比特),声道数为2,比特率为1378.125/8 = 176.4kbit/s,存储空间为

1378.125*60/8/1024 = 10.09MB

以上就是讲模拟信号转化成数字信号

 

三.音频编码:传输过程中数据量过大所以需要进行压缩编码

1.压缩编码的原理:压缩冗余信号,即不能被人耳感知到的信号。

2.常见的压缩格式

①.WAV编码:在PCM数据格式前面加上44个字节,分别用来描述PCM的采样率、声道数、数据格式等信息

特点:音质非常好,大量软件都支持。

适用场合:多媒体开发的中间件、保存音乐和音效素材。

②.MP3编码:具有不错的压缩比,使用LAME编码的中高码率的mp3文件。

特点:音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件和硬件都支持,兼容性好

适用场合:高比特率下对兼容性有要求的音乐欣赏

③.AAC编码:新一代有损压缩技术。

特点:在小于128Kbit/s以下的码率下表现优异,并且多用于视频中的音频编码

适用场合:128Kbit/s以下的音频文件

④.Ogg编码:非常有潜力的编码

特点:可以用比MP3更小的码率实现比更好的音质,高中低码率下均表现优异,兼容性不够好,流媒体不支持。

适用场合:语音聊天的音频消息场景

 

五.图像的数值表示

1.RGB表示方式

①.常见的表示有以下几种:

浮点表示:0.0~1.0,比如OpenGL ES中对每个像素的表示

整数表示:0~255或者0~FF,类似RGBA_8888,android平台上RGB_565表示16(5+6+5)比特一个像素

2.YUV表示方式:主要用于优化彩色视频信号的传输,使其向后兼容老式的黑白电视。

Y:表示亮度

U和V:表示色度

YUV和RGB可以相互转换

 

六.视频的编码方式

1.视频编码:使用帧间编码技术可以去除时间上的冗余信息,具体如下:

①.运动补偿:运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法

②.运动表示:不同区域的图像需要使用不同的运动矢量来描述运动信息

③.运动估计:运动估计是从视频序列中抽取运动信息的一整套技术

2.压缩编码:MPEG

3.编码概念

①.IPB帧:

I帧,帧内编码帧,I帧通常是每个GOP(MPEG所使用的一种视频压缩技术)的第一帧

P帧,前项预测编码帧

B帧,双向预测编码帧

②.PTS与DTS:DTS主要用于视频解码,PTS主要用于解码阶段进行视频的同步与输出

③.GOP的概念:两个I帧之间形成的一组图片就是GOP的概念

 

一.音视频基本概念