基于高斯混合模型的频带扩展算法的研究

本博客是我看《基于高斯混合模型的频带扩展算法的研究》_于莹莹论文的心得,大家可以通过知网或邮件我获取。

摘要

现状:传统的电话语音带宽范围是300Hz~3400Hz,当带宽扩展到300~8000Hz是,语音在自然度、立体感方面会有明显的提升。

问题:高斯混合模型进行高频参数估计时过度平滑,频谱细节严重丢失。

原因:GMM估计的协方差参数的不准确造成的,尤其GMM估计的协方差矩阵是全矩阵而非对角矩阵。

创新一:提出基于用自组织特征映射和高频或者模型(SOFM-GMM)相结合的语音带宽扩展算法,

在练阶段,先采用自组织特征映射映射将训练数据进行无监督聚类,相似度高的特征参数将被聚到同一类;

训练完成后,对每一类训练数据分别进行高斯混合模型的训练,建立 GMM 模型,这样每个 GMM 模型能更精确的表征特征参数之间关系。

创新二:提出了基于码本映射和高斯混合模型相结合的频带扩展方法。码本映射的过程是基于 GMM 参数和特征参数的偏移矢量数据进行的。通过码本映射估计获得的高频特征参数,调整系数与高斯混合模型估计部分组合即得到待估的高频特征参数。

最后对两种改进方法进行了仿真,主观和客观评估。

绪论

选题意义

频带扩展的发展历史

常用的语音质量评估方法

客观评价方法

主观评价方法

第2章 语音信号产生模型以及特征参数 

2.1 语音信号的源-滤波器模型

  首先建立一个源-滤波器模型来描述语音的产生过程。他把语音分为两个部分,一部分是由源生成的激励信号,另一部分是由激励信号通过滤波器用来产生语音。

  人类语音的生成过程涉及的主要器官包括肺、气管、喉、咽、口腔、鼻腔,肺部负责产生空气,自胸腔发出,把咽、口腔合起来称为声道,空气经过声道经过舌、唇、鄂而改变形状,不同形状的空气流决定着不同的语音,产生得特定的空气流类似脉冲波的就是激励信号,滤波器来模拟嘴唇、腔体、舌、下颚。下图是基于滤波器模型的语音生成过程:

基于高斯混合模型的频带扩展算法的研究

  激励信号由肺部产生的气流通过声带,由声带声带振动产生的脉冲激励信号。当产生噪声时,激励信号是一些带有增益频谱更加平滑的随机噪声,当发出浊音时,会产生浊音激励,当发出清音时会产生噪声激励。现实中激励信号是清音和浊音的组合。

2.1.2 源-滤波器模型

用三个滤波器模型来表示语音的产生过程:声门脉冲模型G(z)、声道模型V(z)、辐射模型R(z)。通常把声道模型描述为把各部分当做截面积不同的管子串形成的通道系统。

声道模型可以表示为:$$V(z)=\frac{0.5(1+r_G)\prod_{k=1}^{N}(1+r_k)z^{-\frac{N}{2}}}{1-\sum_{k=1}^{N}a_kz^{-k}}$$

上式可以表示一个N阶的全极点函数,因此可以考虑用全极点数字滤波器模型模拟。

  口唇端辐射在高频段较为显著,在低频段时影响较小,所以辐射模型R(z)应是一阶类高通滤波器的形式。口唇的辐射效应可表示为:

$$R(z)=R_0(10z^{-1})$$

  这个模型先由声门脉冲滤波器先产生脉冲序列,然后输出给声道滤波器部分。声道滤波器模拟了从声道、声门到嘴唇这个过程的发生部位。放射模型代表唇部的放大功能。有时我们把这些模型结合到一个传输函数 H(z)中,即:

$$H(z)=G(z)V(z)R(z)=\frac{1}{1-\sum_{i=1}^{p}a_iz^{-i}}$$

  上式是一个完整的发音过程,也可以看成一个“合成滤波器”,p是$H(z)$的预测阶数,对一个语音信号进行线性分析时,将产生一个激励信号和一个分析滤波器 A(z),合成滤波器是分析滤波器的倒数,

$$H(z)=\frac{1}{A(z)}$$

2.1.3 基于源-滤波器的频带扩展过程

  由于每个人生成的激励信号的脉冲周期不同,脉冲的周期取决于声带的频率和紧张度。一般来说,基频即两个脉冲之间的时间,男人的基频比女人和儿童的要高,男人的基频范围在 50Hz-250Hz,女人的在 125Hz-500Hz,儿童的更高一点。每个人产生的语音频率不一样,解决方法就是为不同的基音周期建立不同的模型,因此引入频带扩展技术。频带扩展的问题可以分解两部分的扩展:谱包络与激励信号。由于频谱包络的特性,频谱包络扩展在估计时可以利用先验知识,即通过简单的码本聚类或者其他的基于GMM或者HMM的估计模型。下图所示是通过合成滤波器的频带扩展过程。

基于高斯混合模型的频带扩展算法的研究

  首先从输入信号中提取能表征信号的参数矢量。接着基于GMM估计出表征高频语音信号的参数矢量,也即模型的AR系数。AR系数可以作为分析滤波器A(z)的系数,合成滤波器为分析滤波器的倒数。最后把激励信号输入合成滤波器,基于GMM合成高频语音,对高频语音进行增益调整,可得到扩展带语音。

  语音信号在短时内是平稳的,特征参数比较稳定,高频带信号的频谱包络的估计很大程度取决于提取的特征参数是否能合理的表征高频带语音的频谱包络。一般以20-30ms 作为帧长。本文我们采用 20ms 为帧长(8k采样一帧 个样点),然后针对每一帧提取特征参数,下面将对常用的特征参数进行详细介绍。

窄带特征参数

1)自相关系数

2)归一化帧能量

3)过零率

4)局部峰度

5)梯度折射率

6)谱质心

频谱包络的特征矢量

1)AR系数

2)线谱频率

3)由AR系数衍生的倒谱系数CC

4)梅尔倒谱系数MFCC

第3章 基于高斯混合模型的频带扩展方法

3.1 激励信号扩展

  激励信号用于输入合成滤波器,进而输出扩展带特征参数,激励信号对合成语音的谐波成分有重要的影响,第二章介绍的发声系统中,可以看到清音和浊音的激励信号有明显的区别,此外激励信号与基频、高低频能量等都有关系,因此激励信号对合成语音有重要的影响。 

  激励信号扩展是基于窄带激励信号的,因此需要首先从窄带语音信号中提取窄带激励信号,我们可以通过预测误差滤波器提取窄带激励信号,该滤波器参数是对原始宽带语音信号进行先行预测分析获得的,如下图所示:

基于高斯混合模型的频带扩展算法的研究

图* 窄带激励信号提取

  获得窄带激励信号之后需要对信号扩展为高带激励信号。从窄带激励信号扩展成高带激励信号的最常用的方法,包括非线性失真、谱折叠和铺平易、函数生成器等。

  下面将详细分写不同激励信号扩展方法的优点缺点,并给出本文使用的激励信号扩展的方法。

  非线性特性方法是人工频带扩展领域中最早用于扩展窄带激励的方法。非线性失真的处理方法会生成新的信号成品,包括基频、二倍频等。一般的过程是首先对窄带激励信号进行非线性失真的处理,生成新的频率成分,从而获得高频激励信号。非线性处理过程类似用一个非线性函数对信号进行的映射,即如下图所示:

  非线性特性处理的函数非常多,包括半波整形函数及全波整形函数、二次特性函数、自适应二次特性函数、三次特性函数、双曲正切特性函数等。半波整形函数通过阻断负半波而使正半波通过对窄带激励信号进行整形,获得高带激励信号,半波整形后的信号的均值不再是 0,而是正数,半波整形生成新的奇次谐波包括基频;全波整形类似半波整形,取窄带信号波形的绝对值为扩展带激励信号,经过整形的信号均值不再为 0,且产生新的偶次谐波成分;二次特性函数是对窄带激励信号使用平方操作生成新的二次谐波,作为高频带的激励信号;三次特性函数对窄带激励信号进行三次方操作获得扩展带激励信号,生成包括基频的三次谐波成分,如果必要需要输出;自适应二次谐波特性函数是用一个二次项处理窄带激励信号,比二次特性函数进步的是对输入信号的幅度进行追踪避免被削减,另外与双曲正切特性函数相比,无论能量高低信号都是用同一个非线性函数处理。

  非线性失真处理使用的转换函数直接影响生成的高频激励信号的性能。该方法缺点是经非线性失真过程以后,生成的高频部分的频谱成分是不确定的,所以,使用该方法获得的高频部分在很多时候类似白噪声,对于浊音而言,由这种方法产生的高频信号就会不准确。

  谱平移是利用现有窄带激励信号的谐波结构搬移到更高的频谱上,常用调制的方法实现。在时域用一个调制信号处理窄带激励信号,然后通过高通滤波器,相当于在频域进行卷积,即实现频谱的平移。浊音的激励信号的谐波结构比较明显,因此用谱平移方法效果较好,清音的激励信号类似于噪声,也可以用谱平移方法实现。谱平移方法的缺点是随着谱细节的平移,相位信息也进行平移。扩展带激励信号的相位信息与低频激励信号的相位信息差距较大就会不可避免引入较多人造谐波,使得扩展后的语音听起来含有噪声、不够自然协调。

  谱折叠是谱平移的特例,当调制频率是奈奎斯特频率$\Omega _M=\pi$( 在本文中$f_M8KHz$),在频域奈奎斯特频率附近将出现一个窄带激励信号的镜像,这时候由于输入信号是带限的,所以不需要再使用高通滤波器。频谱折叠的结果会在3700Hz-4300Hz 的中间频率产生一个间隔,这是由于信号的频限制,在3700Hz-4000Hz 处生成一个间隔,而在镜像频谱400Hz-4300Hz处生成另一个间隔。

  函数发生器包括白噪声发生器和正弦函数发生器。白噪声发生器主要用于扩展清音的激励信号,不需要估计基音信息。正弦函数发生器是时域的函数,发生器的幅度和频率参数通过估计宽带谱包络获得,正弦发生器主要用于生成频谱的谐波成分。正弦函数发生器可以不断调整幅度值和频率值使得生成信号更接近期望值。
  本文采用函数发生器的方法生成高频激励信号。首先对输入语音进行清浊音判定,如果输入语音是清音,则将由白噪声产生器的白噪声作为激励源,如果输入语音为浊音,则由正弦产生器产生激励源。采用函数发生器生成的高频激励信号,用于驱动合成滤波器,合成的宽带语音的谱包络十分逼近原始宽带语音的谱包络,且能量上也比较好控制。

3.2 高频带频谱包络估计

  基于源-滤波器模型进行频带扩展的另一个重要模块即高带谱包络的估计。由已知的低频特征通过不同的估计器获得高频带特征参数,用来合成高频语音。本章主要引入用高斯混合模型作为估计器的方法进行频带扩展,下面将详细介绍高斯混合模型,包括训练过程、参数概率意义,及参数初始值的确定方法,本文利用 K-means 聚类实现初始化;紧接着推导高斯混合模型用于高频参数估计的公式及原理,并总结传统的高斯混合模型训练过程和基于高斯混合模型进行频带扩展的步骤。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

参考文献:

基于高斯混合模型的频带扩展算法的研究