语音信号处理基础（二）

语音信号的特性主要是指它的声学特性、时域波形、频谱特性以及语音信号的统计特性等。这些特性对应着各种语音信号特性分析图，如时域图、频谱图和语谱图等。

时域图

时域图中，语音信号直接用它的时间波形表示出来，通过观察时间波形可以看出语音信号一些重要特性。
语音信号处理基础（二）
（横轴时间，纵轴振幅）
上图是 “sou ke”的时域图，图中标明了时间及各个音节的起始位置。
由于在时域波形中各个音节间不好明显的分界，因此图中标出的某个音的起点只是粗略的。图中，清辅音[s][k]和元音[ou][e]这两类音的时间波形有很大区别，例如从A点开始的音节[s]，以及从C点开始的[k]都是清辅音，它们的波形类似白噪音，振幅很小，没明显周期，而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性，且振幅较大，它们的周期对应的就是声带振动的频率。

语音信号属于短时平稳信号，一般认为在10~30ms内语音信号特性基本上是不变的，或是缓慢的，于是可截取一小段进行频谱分析。

频谱图

简单地说，信号可以通过傅立叶变换而分解成一个直流分量（也就是一个常数）和若干个（一般是无穷多个）正弦信号的和。每个正弦分量都有自己的频率和幅值，这样，以频率值作横轴，以幅值作纵轴，把上述若干个正弦信号的幅值画在其所对应的频率上，就做出了信号的幅频分布图，另外还有相频分布，但其意义不大。

补充：在信号理论和数字信号处理（digital signal processing, DSP）中，离散傅里叶变换（discrete Fourier transform, DFT）扩展用于近似计算连续信号的频谱，其变换的对象只是一个采样点的有限序列，而且可以由快速傅里叶变换（fast Fourier transform, FFT）实现。对一个时域信号进行傅里叶变换，就可以得到信号的频谱(spectrum），信号的频谱由两部分构成：幅度谱和相位谱。

通过matlab的傅里叶变换可以得到一个3维图，是频率、振幅和相位的关系，如上图“唱歌”对应的频谱图如下：
语音信号处理基础（二）
（横轴频率，纵轴振幅）

（横轴频率，纵轴相位）
上图频率和相位关系图观察不出什么特性，但频率和振幅可以观察到一些特点。

第一幅为清辅音[k]的频谱图，第二幅为[ou]的频谱图，其中凸点出现频率就是共振峰的频率（共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征），如[k]没有明显的周期，[ou]可以看出周期稳定。

语谱图（声谱图）

语音的时域分析和频域分析就是语音分析的两种重要方法，但这两种单独分析的方法有局限性，时域分析对语音信号的频率没有直观了解，而频域分析出的特征中又没有语音信号随时间变化的关系。

语音信号是时变信号，所以频谱也是随时间变化的，由于语音信号随时间变化是缓慢的，因而在一段时间内（如10~30ms，即所谓一帧内）可以认为频谱是不变的，这种频谱是短时谱，短时谱只反映语音信号静态频谱特性。

语谱图是和时间相关的傅立叶分析显示图，是一种三维频谱，表示语音频谱随时间变化的图形，纵轴是频率，横轴是时间，任意给定频率成分在给定时刻的强弱（幅度）用相应点的灰度图或色调的浓淡表示，颜色深，表示该点的语音能量越强。

语谱图上因其不同的黑白程度形成了不同的纹路，称之为“声纹”，它因人而异，即不同讲话者语谱图声纹是不同的，因而可以用声纹鉴定不同的讲话人。语谱图中的花纹有横杠、乱纹和竖直条等，横杠是和时间轴平行的几条深黑色带纹，它们相应于短时谱中的几个凸出点，即共振峰，有没有横杠出现是判断它是否是浊音的重要标志。下图为在Pratt中查看的“唱歌”的语谱图。
语音信号处理基础（二）

语谱图详解

语音信号处理基础（二）
这段语音被分为很多帧，每帧语音都对应于一个频谱（通过短时FFT计算），频谱表示频率与能量的关系。在实际使用中，频谱图有三种，即线性振幅谱、对数振幅谱、自功率谱（对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号）。
语音信号处理基础（二）
将其中一帧语音的频谱通过坐标表示出来，如上图左。现在我们将左边的频谱旋转90度。得到中间的图。然后把这些幅度映射到一个灰度级表示（也可以理解为将连续的幅度量化为256个量化值），0表示黑，255表示白色。幅度值越大，相应的区域越黑。这样就得到了最右边的图，目的是增加时间这个维度，可以显示一段语音而不是一帧语音的频谱，而且可以直观的看到静态和动态的信息。这样得到一个随着时间变化的频谱图，这个就是描述语音信号的语谱图(spectrogram)。
语音信号处理基础（二）
下图是一段语音的语谱图，很黑的地方就是频谱图中的峰值（共振峰formants）。

用语谱图表示语音，首先音素（Phones）的属性可以更好的在这里面观察出来。另外通过观察共振峰和它们的转变可以更好的识别声音。隐马尔科夫模型（Hidden Markov Models）就是隐含地对语谱图进行建模以达到好的识别性能。还有一个作用就是它可以直观的评估TTS系统（text to speech）的好坏，直接对比合成语音和自然语音的语谱图的匹配度即可。

语音信号处理基础（二）

语音信号处理基础（二）

时域图

频谱图

语谱图（声谱图）

语谱图详解

相关推荐