语音信号处理基础(二)

语音信号处理基础(二)

语音信号的特性主要是指它的声学特性、时域波形、频谱特性以及语音信号的统计特性等。这些特性对应着各种语音信号特性分析图,如时域图、频谱图和语谱图等。

时域图

时域图中,语音信号直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号一些重要特性。
语音信号处理基础(二)
(横轴时间,纵轴振幅)
上图是 “sou ke”的时域图,图中标明了时间及各个音节的起始位置。
由于在时域波形中各个音节间不好明显的分界,因此图中标出的某个音的起点只是粗略的。图中,清辅音[s][k]和元音[ou][e]这两类音的时间波形有很大区别,例如从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似白噪音,振幅很小,没明显周期,而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大,它们的周期对应的就是声带振动的频率。

语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或是缓慢的,于是可截取一小段进行频谱分析。

频谱图

简单地说,信号可以通过傅立叶变换而分解成一个直流分量(也就是一个常数)和若干个(一般是无穷多个)正弦信号的和。每个正弦分量都有自己的频率和幅值,这样,以频率值作横轴,以幅值作纵轴,把上述若干个正弦信号的幅值画在其所对应的频率上,就做出了信号的幅频分布图,另外还有相频分布,但其意义不大。

补充:在信号理论和数字信号处理(digital signal processing, DSP)中,离散傅里叶变换(discrete Fourier transform, DFT)扩展用于近似计算连续信号的频谱,其变换的对象只是一个采样点的有限序列,而且可以由快速傅里叶变换(fast Fourier transform, FFT)实现。对一个时域信号进行傅里叶变换,就可以得到信号的频谱(spectrum),信号的频谱由两部分构成:幅度谱和相位谱。

通过matlab的傅里叶变换可以得到一个3维图,是频率、振幅和相位的关系,如上图“唱歌”对应的频谱图如下:
语音信号处理基础(二)
(横轴频率,纵轴振幅)
语音信号处理基础(二)
(横轴频率,纵轴相位)
上图频率和相位关系图观察不出什么特性,但频率和振幅可以观察到一些特点。
语音信号处理基础(二)
第一幅为清辅音[k]的频谱图,第二幅为[ou]的频谱图,其中凸点出现频率就是共振峰的频率(共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征),如[k]没有明显的周期,[ou]可以看出周期稳定。

语谱图(声谱图)

语音的时域分析和频域分析就是语音分析的两种重要方法,但这两种单独分析的方法有局限性,时域分析对语音信号的频率没有直观了解,而频域分析出的特征中又没有语音信号随时间变化的关系。

语音信号是时变信号, 所以频谱也是随时间变化的,由于语音信号随时间变化是缓慢的,因而在一段时间内(如10~30ms,即所谓一帧内)可以认为频谱是不变的,这种频谱是短时谱,短时谱只反映语音信号静态频谱特性。

语谱图是和时间相关的傅立叶分析显示图,是一种三维频谱,表示语音频谱随时间变化的图形,纵轴是频率,横轴是时间,任意给定频率成分在给定时刻的强弱(幅度)用相应点的灰度图或色调的浓淡表示,颜色深,表示该点的语音能量越强。

语谱图上因其不同的黑白程度形成了不同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图声纹是不同的,因而可以用声纹鉴定不同的讲话人。语谱图中的花纹有横杠、乱纹和竖直条等,横杠是和时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,即共振峰,有没有横杠出现是判断它是否是浊音的重要标志。下图为在Pratt中查看的“唱歌”的语谱图。
语音信号处理基础(二)

语谱图详解

语音信号处理基础(二)
这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能量的关系。在实际使用中,频谱图有三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号)。
语音信号处理基础(二)
将其中一帧语音的频谱通过坐标表示出来,如上图左。现在我们将左边的频谱旋转90度。得到中间的图。然后把这些幅度映射到一个灰度级表示(也可以理解为将连续的幅度量化为256个量化值),0表示黑,255表示白色。幅度值越大,相应的区域越黑。这样就得到了最右边的图,目的是增加时间这个维度,可以显示一段语音而不是一帧语音的频谱,而且可以直观的看到静态和动态的信息。这样得到一个随着时间变化的频谱图,这个就是描述语音信号的语谱图(spectrogram)。
语音信号处理基础(二)
下图是一段语音的语谱图,很黑的地方就是频谱图中的峰值(共振峰formants)。
语音信号处理基础(二)
用语谱图表示语音,首先音素(Phones)的属性可以更好的在这里面观察出来。另外通过观察共振峰和它们的转变可以更好的识别声音。隐马尔科夫模型(Hidden Markov Models)就是隐含地对语谱图进行建模以达到好的识别性能。还有一个作用就是它可以直观的评估TTS系统(text to speech)的好坏,直接对比合成语音和自然语音的语谱图的匹配度即可。