Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

基于递阶递归神经网络的语音频带扩展的波形建模与生成

作者:凌震华老师;成员:Yang Ai , 顾宇, and Li-Rong Dai

摘要

  本文提出了一种基于递阶递归神经网络(HRNN)的语音带宽扩展(BWE)的波形建模与生成方法。与传统的预测宽带语音波形谱参数的盲式频带扩展(BWE)方法不同,该方法在不使用声码器的情况下,直接对波形样本进行建模和预测。该模型受一个无条件的神经音频生成器SampleRNN的启发,用一个由长短期记忆(LSTM)层和前馈层组成的神经网络来表示每个宽带或高频波形样本在输入窄带波形样本上的分布情况。长短期记忆网络形成一个递阶结构,并且每个层以特定的时间分辨率工作,以有效地捕获时域序列之间的大跨度依赖关系。此外,还利用基于深度神经网络的状态分类器获得窄带语音的瓶颈特征等附加条件作为辅助输入,进一步提高了宽带语音的生成质量。比较几种波形建模方法的实验结果表明,基于HRNN的方法比基于扩张卷积神经网络的方法和样本级递归神经网络方法能获得更好的语音质量和运行时间效率。我们提出的方法在重建宽带语音的主观质量方面也优于传统的基于LSTM-RNNs的声码器盲式频带扩展(BWE)方法。

关键字:语音带宽扩展,循环神经网络,扩张卷积神经网络,瓶颈特征

一、引言

  语言交流在人们的生活中占有很重要的地位,然而由于通信信道和语音采集设备的限制,语音信号的带宽通常限在窄频带。比如在公共交换电话网(PSTN)中,语音信号的带宽小于4kHZ。语音高频部分的缺失通常导致低自然度和低可懂度。比如很难区分摩擦音和类似的声音。因此,语音带宽扩展(BWE)是利用宽带语音信号的低频分量与高频分量之间存在的相关关系来恢复窄带语音中缺失的高频分量的方法,引起了许多研究者的关注。盲式频带扩展的方法不仅可以应用于实时语音通信,还可以应用于其他语音信号处理领域,如文本到语音(TTS)合成[1]、语音识别[2][3]和语音增强[4][5]

  许多研究者在BWE领域做了大量的工作。一些早期的研究采用语音产生的源-滤波器模型,试图从输入窄带信号中分别恢复高频残差信号和谱包络。高频残差信号通常用谱折叠法[6]从窄带残差信号中估计出来。从窄带信号中估计高频谱包络一直是一项困难的任务。为了实现这一目标,提出了诸如码本映射[7]和线性映射[4],以及使用高斯混合模型(GMMs)[8]-[11]和隐马尔可夫模型(HMMs)[12]-[15]的统计方法。在统计方法上,建立声学模型来表示窄带谱参数与高频谱参数之间的映射关系。虽然这些统计方法比简单的映射方法取得了更好的性能,但由于GMMs和HMMs建模能力不足,可能导致频谱参数过平滑,从而限制了重建语音信号的质量[16]

  在最近几年,深入学习已成为机器学习研究的一个新兴领域。深度学习技术已经成功地应用于许多信号处理任务中。在语音信号处理中,具有深层结构的神经网络被引入到语音合成[17][18]、语音转换[19]、[20]、语音增强[21]、[22]等语音生成任务中。在盲式频带扩展领域,神经网络也被用来预测表征声道滤波特性的频谱参数[23]-[25],或者用短时傅里叶变换(STFT)[26],[27]导出的原始对数量级谱。所研究的模型结构包括深层神经网络(DNN)[28]–[30]、递归时间受限Boltzmann机(RBM)[31]、具有长期短期记忆(LSTM)单元的递归神经网络(RNN)[32]等。这些方法比传统的统计模型(如GMMs和HMMs)具有更好的盲式频带扩展(BWE)性能,因为深度神经网络能够更好地建立输入和输出声学参数之间复杂的非线性映射关系。

  然而所有现有的方法都是基于声码器的,即利用声码器从窄带波形中提取频谱参数,然后从预测的宽带或高频谱参数中重建音频波形。这可能导致两个缺陷。首先,语音编码器的参数化过程往往会降低语音质量。例如,当采用低维谱参数(如Mel-cepstra或线谱对(LSP)来表示声码器中的谱包络时,重构波形中的光谱细节总是丢失的。当只使用F0值和二进制浊音/清音标志来描述激励时,浊音帧的噪声分量的频谱形状总是被忽略。第二,由于相位翘曲问题,很难对相位谱进行参数化和预测。因此简单的估计方法,如反像镜,在现有的方法[26]、[32]中普遍用于预测高频相位谱。这也限制了重建的宽带语音的质量。

  最近,提出了基于神经网络的语音波形合成器,如WaveNET[33]和sampleRNN[34]。在WaveNet[33]中,每个波形样本的分布取决于先前的样本和附加条件,附加条件用神经网络表示,神经网络是由扩展卷积神经层和剩余结构的神经网络来表示。SampleRNN[34]采用具有递归结构的循环神经网络层,用于无条件的音频生成。受WaveNet的启发,在前面的工作中,我们提出了一种基于堆叠扩展CNN的盲式频带扩展的波形建模和生成方法[35],该方法比基于声码器的lSTM-RNNs方法获得了更好的主观盲式频带扩展性能。另一方面,RNNs直接用于语音频带扩展的波形建模和生成的方法尚未得到研究。

  因此,本文提出了一种基于RNNS的波形建模与生成盲式频带扩展方法。如上所述,直接波形建模和波形生成可以帮助避免基于声码器的盲式频带方法中的频谱表示和相位建模问题。考虑到RNNs和LSTM单元的序列记忆和建模能力,本文采用LSTM-RNNs对给定输入窄带波形的宽带或高频波形样本进行建模和生成。受SampleRNN的启发,提出了一种基于递阶RNN(HRNN)结构的盲式频带扩展方法。在HRNN结构中有多个循环层,每层以特定的时间分辨率工作。与普通样本级别深层RNNs结构相比,HRNNs在时间序列中捕获大跨度依赖项的能力更强,效率更高。此外,在HRNN建模中引入了基于DNN的状态分类器从窄带语音中提取的瓶颈特征[32]、[36]、[37]等附加条件,以进一步提高盲式带宽扩展BWE的性能。

  本文的贡献有两方面。首先,本文首次成功地尝试了利用rnns直接在样本级对语音波形进行建模和生成。其次,本文实现并评估了基于波形的盲式的频带扩展的各种RNN网络结构,包括简单的样本级LSTM-RNNs,HRNNs和附加条件的HRNNs。比较几种波形建模方法的实验结果表明,基于HRNN的方法比基于堆叠扩张CNN的方法[35]和基于简单样本层RNN的方法获得了更好的语音质量和运行效率。基于HRNN的方法在重建宽带语音的主观质量方面也优于传统的基于LSTM-RNNs的声码器盲式频带扩展方法。

  本论文的结构如下,在第二节中,我们简要回顾了以往的BWE方法,包括基于声码器的方法和基于CNN的扩展方法。在第三节中,详细介绍了我们提出的方法。第四节报告了我们的实验结果,第五节给出了结论。

二、先前的工作

A、基于声码器的神经网络频带扩展

 

 

B、基于波形扩展CNN的BWE

 

 

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图1 堆叠扩展的非因果CNN的结构[35]。

 

 

 

三、提出的方法

  本文受SampleRNN[34]的启发,提出了基于RNNs的BWE波形建模和生成方法。SampleRNN[34]是一种包含阶梯结构的循环神经层的无条件音频生成器。在本节中我们首先介绍了普通样本级rnn(Srnn)用于波形建模。然后详细介绍了阶梯RNN(HRNN)和条件HRNN的结构。最后,给出了使用RNNs的BWE的流程图。

A、样本级循环神经网络

  用LSTM-RNNs生成的语音通常是在语音帧级上建立的,目的是在固定帧移[32],[43]的情况下对声码器提取的声学参数进行建模。用相似的LSTM-RNN框架在样本层对语音波形进行建模和生成是非常简单的。图2给出了用于BWE的样本级循环神经网络(SRNNs)的结构,由LSTM层和前馈层组成。输入波形样本$x = [x_1,x_2,...,x_T]$和输出波形样本$y = [y_1,y_2,...,y_T]$被μ定律量化为离散值。嵌入层将每个离散样本值$x_t$映射到一个真值向量$e_t$。LSTM层以循环的方式对嵌入向量序列进行建模。当只有一个LSTM层时,计算过程可以表述为

$$\begin{matrix}h_t=H(h_{t-1},e_t)&&&&(2)\end{matrix}$$

其中$h_t$是LSTM层在时间步长$t$上的输出,$H$表示LSTM单元的**函数。如果有多个LSTM层,它们的输出可以逐层计算。然后,$h_t$通过FF层。最后一层的**函数是一个Softmax函数,它生成输出样本$y_t$的概率分布,该概率分布取决于先前和当前的输入样本${x_1,x_2,...,x_4}$

$$\begin{matrix}
p(y_t|x_1,x_2,...,x_t)=FF(h_t)&&&&(3)
\end{matrix}$$

其中,函数FF表示FF层的计算。

  给出了具有并行输入输出波形序列的训练集,利用交叉熵代价函数来估计LSTM和FF层的模型参数。在生成时,通过最大化条件概率分布(3)得到每个输出样本$y_t$。我们的初步测试和非正式听力测试表明,该生成规范比从分布产生随机样本可以获得更好的主观性能。由于传统的WavaNet和SampleRNN模型具有自回归结构,因此需要随机采样。然而,图2中所示的模型结构不是自回归的。输入波形为合成输出语音,特别是清音音段提供了必要的随机性。

  在SRNN中,每个输出样本的生成取决于所有以前的和当前的输入样本。然而,这种简单的LSTM-RNN结构在波形建模和生成方面仍存在一些不足。首先,样本级建模使输入和输出语音信号之间的大跨度依赖关系难以建模,因为与帧级建模相比序列长度明显增加。第二,由于各层的逐点计算和嵌入层的尺寸展开,SRNNs的波形生成效率低下。因此在SampleRNN[34]的启发下,在下一小节中提出了一种递阶RNN(HRNN)结构来缓解这些问题。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图2 SRNNs结构的盲式频带扩展,同心圆表示LSTM层,倒梯形代表FF层。

B、递阶循环神经网络(HRNNs)

  图3中表示出了BWE的HRNNs结构。与第三节A中提到的方法类似,HRNNs也由LSTM层和FF层组成。不同于SRNNs的普通LSTM-RNN结构,HRNNs中的这些LSTM和FF层形成多层的递阶结构,每一层以特定的时间分辨率工作。底层(第一层如图3所示)处理单个样本并输出样本级别预测。每一个较高的层都以较低的时间分辨率工作(即,每个时间步骤处理更多的样本)。除顶层外,每一层都在它上面的层上。该模型结构与SampleRNN[34]相似。主要的区别在于,原始的sampleRNN模型是一个无条件的音频发生器,它使用输出波形的输出作为网络输入,并以自回归的方式生成输出波形。同时,如图3所示的HRNN模型。不考虑输出波形的自回归特性,直接描述两个波形序列之间的映射关系。这个hrnn结构是专门为Bwe设计的,因为在这个任务中使用窄带波形作为输入。消除自回归连接有助于降低计算复杂度,并在生成时方便并行计算。尽管有条件SampleRNNs已经被开发并用作神经声码器以根据声学参数重建语音波形[44],但它们仍然遵循自回归框架并且不同于HRNNs。

  假定一个HRNN总共有K层(例如,图3中的k=3)第1层工作在样本级别,而其他的K-1层是框架层,因为它们的时间分辨率低于样本。

1)框架水平的层:第K层的框架由$L^(k)$个样本组成,时间范围步骤的第k层,由$L^(k)$层决定。将量化的输入波形表示为$x=[x_1,x_2,...,x_T]$,并假设$L$表示零填充后的x的序列长度,这样$L$就可以被$L^(K)$整除,我们可以得到

$$t^{(k)} \in T^{(k)}=
\begin{Bmatrix}
{1,2,...,\frac{L}{L^{(k)}}}
\end{Bmatrix},1<k\leq K$$

此外,第m层和第n层($1<m,n\leq K$)之间时间分辨率的关系可以被描述为

$$T^{(n)}=
\begin{Bmatrix}
t^{(n)}|t^{(n)}=
\begin{bmatrix}
\frac{t^{(m)}}{L^{(n)}/L^{(m)}}
\end{bmatrix},t^{(m)}\in T^{(m)}
\end{Bmatrix}$$

其中[·]表示四舍五入,从上式可以看出,第n层的一个时间步长对应于第m层的$\frac{L^{(n)}}{L^{(m)}}$时间步长。第k层的输入帧为$f_t^{(k)}(1<k \leq K)$,第t层的时间步骤可以通过帧和级联操作写入为

$$\tilde{f}_t^{(k)}=[x_{(t-1)}L^{k}+1,...,x_{xL^{(k)}} .]^T$$

$$\tilde{f}_t^{(k)}=[\tilde{f}_t^{(k)T},...,\tilde{f}_{t+c^k-1}^{(k)T}.]^T$$

其中$t\in T^{(k)},\tilde{f}_t^{(k)}$表示第t层的第k帧波形,c(k)表示第k层的级联帧数,在图3所示的模型结构中,我们有c(3)=c(2)=1。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图3 HRNNs的盲式频带扩展BWE结构,同心圆表示LSTM层,倒梯形代表FF层。

  如图3所示,帧级连接由LSTM层组成。在顶端层(即K层),基于前一时间步长的隐藏状态$h_t-1^{(K)}$更新LSTM的隐层状态,输入为当前时间步骤$f_t^{(K)}$。如果k层中只有一个LSTM层,则计算过程可以表述为

$$h_t^{(K)}=H(h_{t-1}^{(K)},f_t^{K}),t\in T^{(K)}$$

如果顶层由多个lstm-rnn层组成,则可以逐层迭代地计算隐藏状态。

  由于不同层次的时间分辨率不同,顶层在每个时间步$t\in T^{(K)}$为第$K-1$层生成$r^{K}=\frac{L^{(K)}}{L^{K-1}}$条件向量。这是通过在每个时间步骤产生$h_t^{(K)}$的一组$r^{(K)}$独立线性预测来实现的。对于中间层(即1<k<K),条件向量的生成过程与顶层的处理过程相同。因此,我们可以一致地将条件向量描述为

$$d_{(t-1)r^{(k)}+j}^{(k)}=W_j^{(k)}h_t^{(k)},j=1,2,...,r^{(k)},t\in T^{(k)}$$

式中$1<k \leq K$并且$r^{(k)}=\frac{l^{(k)}}{L^{(k-1)}}$

  中间层的LSTM层的输入向量不同于顶层的输入向量。对于第k层(1<k<K),在第t时间步的输入向量$i_t^{(k)}$由帧输入$f_t^{(k)}$和第(k+1)层给出的条件向量d_t^{k+1}的线性组合组成,如

$$i_t^{(k)}=W^{(k)}f_t^{(k)}+d_t^{(k+1)},t \leq T^{(k)}$$

因此,第k层的LSTM层输出可以被计算为:

$$h_t^{k}=H(h_{t-1}^{(k)},i_t^{(k)}),t \leq T^{(K)}$$

2)样本级别的层:样本级别的层(即图3的第一层)给出了当前输入样本$x_t$(即$L^{(1)}=1$)的为条件和从上述层传递的输入序列的编码历史信息,即$t \leq T^{(1)}={1,2,...,\frac{L}{L^{(1)}}}$的输出样本$y_t$的概率分布。因为$x_t$和$y_t$是独立的样本,因此可以方便地使用无记忆结构(如FF层)来模拟它们之间的相关性。首先,通过嵌入层将$x_t$映射到一个真实向量$e_t$中。这些嵌入向量在样本层的每个时间步形成输入,即,

$$f_t^{(1)}=[e_t^T,...,e_{t+c^{(1)}-1}^T]^T$$

式中,$t \leq T^{(1)}$,$c^{(1)}$是在样本层上级联的样本嵌入的数目。如图3所示的模型结构中,$c^{(1)}=1$。然后FF层的输入是$f_t^{(1)}$和$d_t^{(2)}$的线性组合。

$$i_t^{(1)}=W^{(1)}f_t^{(1)}+d_t^{(2)},t \leq T^{(1)}$$

  最后,通过在FF层传递$i_t^{(1)}$我们可以得到输出样本$y_t$的条件概率分布。最后一个FF层的**函数是一个Softmax函数。FF层的输出条件分布可以被描述为

$$p(y_t|x_1,x_2,...,x_{(\frac{t}{L^{(K)}}+c^{(K)}-1)L^{(K)}})=FF(i_t^{(1)})$$

式中$t \leq T^{(1)}$

  值得一提的是,图3中所示的结构是非随意性的,它利用未来的输入样本以及当前和以前的输入样本来预测当前输出样本(例如,利用$x_1,...,x_L^{(3)}$来预测图3中的$y_1$)。一般来说,最多在当前时间步长之后的$c^{(K)}L^{(K)}-1$输入样本是必要的,以便预测当前的输出样本符合上面的公式。这也是我们的HRNN模型和SampleRNN的区别,它具有因果和自回归结构。

  与SRNN类似,HRN参数估计采用交叉熵损失函数,给定一个具有并行输入和输出样本序列的训练集。在生成时,使用上式中的条件概率分布来预测每$y_t$。

C、条件递阶递归神经网络(CHRNN)

  从输入窄带波形中提取的一些帧级辅助特征,如瓶颈特征[36],在提高基于声码器的BWE的性能方面显示出了它的有效性[32]。为了将这些辅助输入与第III-B节中引入的HRNN模型相结合,设计了一个如图4所示的条件HRNN结构。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图4 条件HRNN的BWE结构,其中同心圆代表LSTM层,倒梯形代表ff层。

  与HRNN相比,条件HRNNs在顶层添加了一层条件层。条件层的输入特征是从输入波形中提取的帧级辅助特征向量,而不是波形样本。假设条件HRNN中的总层数是K(如图4所示K=4),$L^{(K)}$提供辅助输入特征的帧移位。第三节中的公式4和公式5在这里依然有效。与第三节B中的介绍类似,条件层上的帧输入可以写为

$$公式15:c_t=[c_q^t,c_2^t,...,c_d^t],t \leq T^{(K)}$$

式中%c_d^t%代表第d层在时间t时刻的辅助特征向量的维度,然后对HRNNs进行公式8-13的计算,最后,生成的$y_t$的条件概率分布可以写为:

$$公式16:p\begin{pmatrix}
y_t|x_1,...,x([\frac{t}{L^{(K)}}]+x^{(K)}-1)L^{(K),C_1,C_2,...,C_{[\frac{t}{L^(K)}]}}
\end{pmatrix}
=FF(i_t^{(1)})$$

其中$t \leq T^{(1)},\{c_1,c_2,...,c_[\frac{t}{L^{(K)}}]\}$是由辅助输入特性引入的附加条件。

D、基于SRNNs和HRNNs的BWE

  基于SRNNs或HRNNs的BWE流程图如图5所示,有两种映射策略,一种是将窄带波形映射到相应的宽带对应波形(本文后面称为WB策略),另一种是将窄带波形映射到宽带语音的高频分量波形(称为HF策略)。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图5 我们提出的BWE方法的流程图。

  使用具有宽带语音记录的数据库用于模型训练。在训练阶段,通过对宽带波形的下采样得到输入窄带波形。为了保证输入和输出序列的长度一致性,然后将窄带波形上采样到具有零高频分量的宽带语音的采样率。模型输入采用上采样的窄带波形。输出波形既不是未滤波的宽带波形(WB策略)也不是高频波形(HF策略)。高频波形是通过将宽带语音发送到高通滤波器和用于降低量化噪声的放大器中获得的,如图5中的虚线所示。在将波形用于模型训练之前,所有输入和输出波形样本是用8bit μ-law量化离散。在交叉熵(CE)准则下训练SRN或HRNs的模型参数,优化训练集上离散输出样本的分类精度。

  在扩展阶段,上采样和量化的窄带波形被馈送到训练好的SRNN或HRNNs中,以产生输出样本的概率分布。然后通过选择具有最大后验概率的量化水平来获得每个输出样本。稍后,使用μ-law量化的逆映射将量化的输出样本解码为连续值。为了补偿训练时放大的影响,对HF策略进行了去采样处理。最后,生成的波形通过高通滤波,并与输入窄带波形相加,以产生最终的宽带波形。

  特别是对于条件HRNN,BN特征在我们的实现中被用作辅助输入,如图5中的灰色线所示。BN特征可以被认为是语言和声学信息的紧凑表示[36]。在此,基于DNN的状态分类器提取BN特征,该状态分类器具有比其他隐藏层具有更少隐藏单元的瓶颈层。从窄带语音中提取的梅尔频率倒谱系数用作DNN的输入,输出是HMM状态的后验概率。在交叉熵(CE)准则下训练DNN,并在扩展时用作BN特征提取器。

四、实验

A、实验步骤

  本实验采用TIMIT语料库[45],该语料库包含来自多说话人的16kHz采样率和16位分辨率的英语语音。我们分别选取3696和1153个语音分别作为训练集和验证集。以训练集和验证集未包含的192个说话者的语音作为测试集,评价不同BWE方法的性能。实验中,对16kHz的宽带语音进行下采样,得到8kHz的窄带语音波形。

  在我们的实验中,我们构建了五个BWE系统1以供比较。这些系统的说明如下。

1)VRNN:基于声码器的使用LSTM-RNs的BWE方法,如II-A节中所介绍的。本文使用[32]中的DRNN-BN系统进行比较,使用具有辅助BN特征的深层LSTM-RNNs模型对高频分量的LMS进行预测。基于最小均方误差(MMSE)准则,采用随时间反向传播BPTT算法训练LSTM-RNN模型。在这个系统中,构建一个基于DNN的状态分类器用来提取BN特征。以11帧39维的窄带MFCC作为DN分类器的输入,以61个单通道语音的183个HMM状态的后验概率作为DNN分类器的输出。DNN分类器采用6个隐藏层,其中BN层有100个隐层单元,其他隐藏层有1024个隐藏单元。将BN层设置为第五隐藏层,以便提取器能够捕获更多的语言信息。这种BN特征提取器也用于CHRNN系统中。

2)DCNN:基于波形的BWE方法,使用第II-B节介绍的层叠扩展CNNs。本文与[35]中的CNN2-HF系统进行比较,使用非因果CNNs预测高频波形,其性能优于其他配置。

3)SENN使用III-A节介绍的样本级RNNs的基于波形的BWE方法。所建立的模型有两个LSTM层和两个FF层。LSTM层和FF层都具有1024个隐藏单元,嵌入大小为256。该模型用64个最小批量的随机梯度下降法训练预测概率分布与实际概率分布之间的交叉熵。采用零填充的方法使小批次中的所有序列具有相同的长度,在计算梯度时忽略了添加的零样本的成本值。使用Adam优化器[46]以初始学习率为0.001更新参数。采用随时间截断的反向传播(TBPTT)算法提高模型训练效率,将截断长度设置为480。

4)HRNN:使用如III-B节介绍的HRNNs基于波形的BWE方法。HRNN由三层组成,第1层有两个FF层,第2层和第3层各有一个LSTM层。因此,总共有两个LSTM层和两个FF层,这与SRNN系统相似。在对验证集进行调整后,在本实验中,在对验证集进行调优之后,将公式(14)和公式(19)中的$c^{(k)}、k=\{1,2,3\}$的数目设置为$c^{(3)}=c^{(2)}=2,c^{(1)}=L^{(2)}$。其他一些设置,如隐藏单元的尺寸和训练方法,与上述SRNN系统相同。HRNN模型的帧大小配置将在第四-B部分讨论。

5)CHRNN:基于波形的BWE方法,使用如第1三-C节介绍的条件HRNs。采用VRNN系统使用的DNN状态分类器提取的BN特征作为辅助条件。模型由4层组成。顶层条件层有一个1024个隐藏单元的LSTM层,其他三个层与HRNN系统相同。一些基本设置和训练方法与HRNN系统相同。条件层的设置将在第四-E节中详细介绍。

  在我们的实验中,我们首先研究了帧大小和映射策略(即,在第三-D节中引入的WB和HF策略)对HRNN系统性能的影响。然后,对DCNNSRNNHRNN等基于波形的BWE方法进行了比较。随后,通过对HRNN系统和CHRNN系统的比较,研究了在HRNNs系统中引入BN特征的效果。最后,将本文提出的基于波形的BWE方法与传统的基于声码器的BWE方法进行了比较。

B、帧大小对基于HRNN的BWE的影响

  正如在第三-B节中所介绍的,帧大小l(K)是使hrnn模型不同于传统样本级rnn的关键参数。在本实验中,我们研究了$L^{(k)}$对基于HRNN的BWE性能的影响。对$(L^{(3)},L^{(2)})$结构的HRNN模型进行训练,比较它们的精度和效率,如图6所示。这里,使用验证集中预测离散波形样本的分类精度来测量不同模型的精度。在单台Tesla K40 GPU上用64个mini-batch的验证集生成1153个发音的总时间来测量运行时效率。本实验同时考虑了WB映射策略和HF映射策略。从图6所示的结果可以看出,训练后的HRNN模型的精度和效率之间存在冲突。使用较小的帧大小$(L^{(3)},L^{(2)})$提高了样本预测的准确性,同时增加了WB和HF策略在扩展阶段的计算复杂度。最后,我们选择$(L^{(3)},L^{(2)})=(16,4)$作为折衷,并在下面的实验中使用这种配置来构建HRNN系统。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图6:对不同$(L^{(3)},L^{(2)})$配置和使用$(a)WB$和$(b)HF$映射策略的基于HRNN的BWE的精度和效率比较。

表1 基于HRNN的BWE采用WB和HF映射策略时测试集上95%置信区间的平均PESQ评分

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

C、映射策略对基于hrnn的Bwe的影响

  从图6可以看出,HF策略比WB策略获得了更低的分类精度。这是合理的,因为预测非周期和类似噪声的高频波形比预测宽带波形更困难。通过客观评价和主观评价,研究了基于HRNN的BWE中哪种策略可以获得更好的性能。

  由于直接比较这两种分类策略的分类精度是不合适的,因此这里采用宽带语音的感知语音质量评价(PESQ)评分(ITU-T P.862.2)[47]作为客观度量。我们使用干净的宽带语音作为参考,并计算使用WB和HF策略(即HRNN-WB系统和HRNN-HF系统)生成的测试集中的192个语音的PESQ分数。为了比较,还计算了上采样的窄带语音(即具有空高频分量)的PESQ分数。表一显示了PESQ的平均得分及其95%置信区间。根据配对t试验(p<0.001)结果,三者之间均有显著性差异。从表I可以看出,HF策略的PESQ得分高于WB策略。HRNN-WB系统的平均PESQ甚至低于上采样窄带语音。这可归因于HRNN-WB系统中的模型旨在重构整个宽带波形,并且不能像HRNN-HF系统那样精确地产生高频分量。

  在Amazon MechanicalTurk(AMT)众包平台(https://www.mturk.com)上进行了3点比较类别评分(CCR)[48]测试,以比较HRNN-WBHRNN-HF系统的主观性能。

B、帧长对基于HRNN的盲式频带扩展的影响

 

 

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图7  比较五个系统对的平均CCR得分,包括:(1) HRNN-HFHRNN-WB,(2) HRNDCNN,(3) HRNSRNN,(4) CHRNHRNN,(5) CHRNVRNN。误差条表示95%的置信区间,括号中的数值表示不同系统对的单样本$t$-test的$p$-value。

  用HRNN-WB和HRNN-HF系统对从测试集中随机选取的20个语音的宽带波形进行了重建。每对产生的宽带语音,根据反作弊的考虑拒绝不正当的听者[49],由15个本地英语听者随机的进行评估。听者被要求不带偏好的判断每对中哪一种话语有较好的语音质量。这里,以HRNN-WB系统作为参考系统。CCR评分1,−1和0用来表示被评估系统重建的宽带语音,即HRNN-HF系统,听起来比参考系统在每对中产生的样本更好、更差或等于参考系统产生的样本。我们计算了所有听者听的所有话语的平均CCR分数及其95%的置信区间。此外,我们亦采用单样本$t-test$,以判断平均CCR评分与0之间是否存在显著差异(即,判断两种系统之间是否存在显著差异)通过检查$p-value$。结果如图7中的第一个系统对所示,这表明HRNN-HF系统的性能显著优于HRNN-WB系统。这与在BWE任务中使用扩张CNN来建模波形时比较这两种策略的结果一致[35]。因此,在以下实验中,我们采用了高频策略来构建基于波形的BWE系统。

D、基于波形的BWE模型比较

  通过客观评价和主观评价,比较了DCNN、SRNN和HRNN三种基于波形的BWE系统的性能。采用第四-B部分使用的准确性和效率度量以及第四-C部分使用的PESQ评分作为客观度量。此外,本文还采用了两个额外的度量,包括测量波形畸变的信噪比[40]和反映频域畸变的对数谱距离[40]。对于每个系统,还分别计算了浊音帧(由SNR-V和LSD-V表示)和清音帧(由SNR-U和LSD-U表示)的信噪比SNR和LSD。为了效率比较的公平性,我们在测试集中生成语音时,将三个系统的最小批量大小设置为1。本实验记录了使用Tesla K40 GPU产生1秒语音的时间(即16 kHz语音的16000个样本)作为效率的测量方法。

  表二显示了三个系统在测试集上的客观性能。除生成时间外,还计算了所有度量指标的95%置信区间。配对$t-tests$结果表明,三种系统在所有指标上的差异均有显著性$(p<0.01)$。在精度和PESQ评分方面,DCNN系统不如其他两个系统好。在精度和PESQ评分方面,HRNN系统都取得了最好的性能。对于SNR,HRNN系统和DCNN系统分别在浊音段和清音段上获得最佳性能。对于LSD,HRNN系统实现了最低的整体LSD和清音段的最低LSD。另一方面,DCNN系统在三个系统中实现了浊音帧的最低LSD。考虑到LSDs只用振幅谱计算,而SNR受重建波形的振幅谱和相位谱的影响,根据表二所示的SNR-V和LSD-V结果,可以推断HRNN系统在恢复浊音帧的相位谱方面优于DCNN系统。在效率方面,SRNN系统的生成时间是HRNN系统的5倍多,因为在SRNN结构的所有层都进行了抽样计算,如第三-A节所述。此外,DCNN系统的效率略低于hrnn系统。结果表明,HRNNs通过采用递阶结构对序列间的大跨度依赖关系进行建模,可以提高信噪比的准确性和效率。

表二:DCNN、SRNN和HRNN系统在测试集上的客观性能

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

  图8显示了从干净的宽带语音中提取的频谱图以及使用DCNN、SRNN和HRNN系统在测试集中示例句子的BWE的输出。可以看到,DCNN系统产生的一些清音段的高频能量比自然语音和SRNN和HRNN系统的输出要弱得多。与SRNN和HRNN系统相比,DCNN系统能更好地重构某些清音段的高频谐波结构。这些观测结果与前面讨论的LSD结果一致。

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

图8 纯净带宽语音的谱图和五种系统在测试集上例句的BWE输出

  此外,分别以DCNN系统和SRNN系统为参考系统,进行了两项三点CCR试验,以评价HRNN系统的主观性能。这些测试的结构与IV-C部分介绍的相同。结果如图7中的第二和第三系统对所示。我们可以看到,我们提出的基于HRNN的语音生成方法比基于扩展CNN的方法产生的语音质量要好得多。与srnn系统相比,hrnn系统略好于srnn系统,但在0.05的显着性水平上优势不显著。然而,HRNN系统在生成时比SRNN系统更有效,如表二所示。

E、附加条件对基于HRNN的BWE的影响

  通过客观评价和主观评价将HRNN系统和CHRNN系统进行比较,探讨附加条件对基于HRNN的BWE的影响。如第四-A节所述,由于BN特征除了提供声学波形外,还能提供与语言相关的信息,因此BN特征被用作CHRNN系统的附加条件。CHRNN系统采用第三-C节引入的条件HRNN结构,具有4层。由于BN特征的帧频移为10ms,因此BN特征的维数为100,在顶部条件层的帧大小为L(4)=160,对应于16kHz语音的160个样本。

  本文采用了第四-D节中的客观测量方法,对HRNN和CHRNN系统进行了比较。结果如表三所示。CHRNN系统在PESQ得分方面优于HRNN系统。预测精度不如HRNN系统。对于信噪比,这两个系统获得了类似的性能。LSD结果表明,CHRNN系统能更好地重建浊音帧,而HRNN系统则相反。在效率方面,由于附加条件层,CHRNN系统的生成时间高于HRNN系统。

  并以HRNN系统为参考系统,按照第四-C节介绍的评价配置,进行了三点CCR试验,以评价CHRNN系统的主观性能。结果显示在图7中的第四个系统对,这表明在基于HRNN的BWE中利用BN特征作为附加条件可以显著提高重构宽带语音的主观质量。图8还显示了由CHRNN系统生成的用于示例句子的宽带语音的频谱图。通过对HRNN系统和CHRNN系统产生的频谱图进行比较,发现CHRNN系统产生的高频分量强于HRNN系统。这可能导致更好的语音质量,如图7所示。

表三 HRNN和CRNN系统在测试集上的客观性能以及$t-tests$检验的$p-values$

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

F、基于波形和声码器的BWE方法的比较

  最后,由于VRNN系统和CHRNN系统都采用BN特征作为辅助输入,因此我们通过对VRNN系统和CHRNN系统进行客观和主观的评估,比较了基于声码器和基于波形的BWE方法的性能。包括PESQ、SNR和LSD的客观结果显示在表四中。CHRNN系统的信噪比明显优于VRNN系统,表明本文提出的基于波形的相位谱恢复方法比传统的基于声码器的方法具有更高的精度。对于PESQ和LSD,CHRNN系统不如VRNN系统。考虑到VRNN系统直接建模和预测了用于PESQ和LSD计算的LMS,这是合理的。以VRNN系统为参照系,遵循第四-C节介绍的评价结构,进行了三点CCR测试,以评价CHRNN系统的主观性能。结果如图7中的第五个系统对所示。可以看出,CCR得分显著高于0,这表明CHRNN系统比VRNN系统能够显著提高重构宽带语音的质量。

  比较图8中由VRNN系统和CHRNN系统产生的频谱图,可以看出CHRNN系统在产生声音的高频谐波方面比VRNN系统表现得更好。此外,CHRNN系统产生的高频分量比VRN系统在清音区段产生的高频分量具有更小的过平滑性和更自然。此外,VRNN系统产生的语音的低频和高频频谱之间存在不连续性,即在其他基于声码器的BWE方法[26]中也发现了这种不连续性。如图8所示,基于波形的系统有效地缓解了这种不连续性。实验结果表明,在BWE任务中,直接对语音波形进行建模和生成优于利用声码器进行特征提取和波形重构。

G、分析和讨论

  1)不同BWE系统的最大时延:一些应用场景对BWE算法的延迟有严格的要求。我们比较了第四-A部分列出的5个BWE系统的最大延迟,结果如表V所示。这里,延迟指的是预测当前输出样本所必需的未来输入样本的持续时间。VRNN系统和CHRNN系统的最大延迟都是由STFT的窗口大小确定的,用于提取LMS和MFCC参数,在我们的实验中为25ms。其他三个系统的最大延迟取决于它们三个系统的结构。SRNN系统根据(3)对输入波形进行逐个采样处理,生成无延迟的输出波形。因为图1所示的非因果CNN结构被DCNN系统采用,并且它的接收域长度为64ms[35],所以它在五个系统中具有最高的延迟。HRNN系统的延迟相对较短,因为连接帧的数量和顶层的帧大小都很小$c^{(3)}=2和L^{(3)}=16$。

  2)基于波形的BWE的运行效率:基于波形的BWE方法的一个缺点是它们在生成时非常耗时。如表二和表三所示,HRNN系统在四个基于波形的系统中达到了最佳的运行时效率,在我们目前的实现中,仍然需要3.61秒来生成1秒的语音。因此,加快HRNN的计算速度是我们今后工作的重要任务。如图6所示,使用较长的帧大小可以帮助降低HRNs的计算复杂度。另一种可能的方法是减少隐藏单元的数量和其他模型参数,类似于语音合成中加速WaveNet的尝试[39]。

五、总结

  本文提出了一种利用递阶递归神经网络(HRNN)实现语音带宽扩展(BWE)的波形建模和生成方法。HRNNs采用循环模块的递阶结构来捕获输入和输出波形序列之间的大跨度相关性。与普通样本水平RNN和堆叠扩展CNN相比,该HRNN模型具有更高的预测高频波形样本的精度和效率。此外,从窄带语音中提取瓶颈特征(BN)等附加条件可以进一步提高重建宽带语音的主观质量。实验结果表明,基于HRNN的方法比基于LSTM-RNs的传统声码器方法具有更高的主观偏好得分。使用实际的带限语音数据评估我们提出的方法的性能,提高使用HRNNs产生波形的效率,以及利用其他类型的附加条件将是我们未来工作的任务。

参考文献

1我们实验中重构的语音波形的实例可以在http://home.ustc.edu.cn/∼ay8067/IEEEtran/demo.html中找到。

[1] K. Nakamura, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech,” in Proc. Interspeech, 2014, pp. 2494–2498.
[2] A. Albahri, C. S. Rodriguez, and M. Lech, “Artificial bandwidth extension to improve automatic emotion recognition from narrow-band coded speech,” in Proc. 10th Int. Conf. Signal Process. Commun. Syst., 2016, pp. 1–7.
[3] M.M.Goodarzi, F. Almasganj, J. Kabudian,Y. Shekofteh, and I. S. Rezaei, “Feature bandwidth extension for Persian conversational telephone speech recognition,” in Proc. 20th Iranian Conf.Elect. Eng., 2012, pp. 1220–1223.
[4] S. Chennoukh, A. Gerrits, G. Miet, and R. Sluijter, “Speech enhancement via frequency bandwidth extension using line spectral frequencies,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2001, vol. 1, pp. 665–668.
[5] F.Musti`ere, M. Bouchard, and M. Boli´c, “Bandwidth extension for speech enhancement,” in Proc. 23rd Canadian Conf. Elect. Comput. Eng., 2010, pp. 1–4.
[6] J. Makhoul and M. Berouti, “High-frequency regeneration in speech coding systems,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 1979, vol. 4, pp. 428–431.
[7] S. Vaseghi, E. Zavarehei, and Q. Yan, “Speech bandwidth extension: Extrapolations of spectral envelop and harmonicity quality of excitation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2006, vol. 3, pp. III-844–III-847.
[8] H. Pulakka, U. Remes, K. Palom¨aki, M. Kurimo, and P. Alku, “Speech bandwidth extension using Gaussian mixture model-based estimation of the highband mel spectrum,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2011, pp. 5100–5103.
[9] Y. Wang, S. Zhao, Y. Yu, and J. Kuang, “Speech bandwidth extension based on GMM and clustering method,” in Proc. 5th Int. Conf. Commun. Syst. Netw. Technol., 2015, pp. 437–441.
[10] Y. Ohtani, M. Tamura, M. Morita, and M. Akamine, “GMM-based bandwidth extension using sub-band basis spectrum model,” in Proc. Interspeech, 2014, pp. 2489–2493.
[11] Y. Zhang and R. Hu, “Speech wideband extension based on Gaussian mixture model,” Chin. J. Acoust., no. 4, pp. 363–377, 2009.
[12] G.-B. Song and P. Martynovich, “A study of HMM-based bandwidth extension of speech signals,” Signal Process., vol. 89, no. 10, pp. 2036–2044, 2009.
[13] Z. Yong and L. Yi, “Bandwidth extension of narrowband speech based on hidden Markov model,” in Proc. Int. Conf. Audio, Lang. Image Process., 2014, pp. 372–376.
[14] P. Bauer and T. Fingscheidt, “An HMM-based artificial bandwidth extension evaluated by cross-language training and test,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2008, pp. 4589–4592.
[15] G. Chen and V. Parsa, “HMM-based frequency bandwidth extension for speech enhancement using line spectral frequencies,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, vol. 1, pp. I–709.
[16] Z.-H. Ling et al., “Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends,” IEEE Signal Process. Mag., vol. 32, no. 3, pp. 35–52, May 2015.
[17] Z.-H. Ling, L. Deng, and D. Yu, “Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 10, pp. 2129–2139, Oct. 2013.
[18] H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2013, pp. 7962–7966.
[19] L.-H. Chen, Z.-H. Ling, L.-J. Liu, and L.-R. Dai, “Voice conversion using deep neural networks with layer-wise generative training,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1859–1872, Dec. 2014.
[20] T. Nakashika, R. Takashima, T. Takiguchi, andY. Ariki, “Voice conversion in high-order eigen space using deep belief nets.” in Proc. Interspeech, 2013, pp. 369–372.
[21] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder,” in Proc. Interspeech, 2013, pp. 436–440.
[22] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 1, pp. 7–19, Jan. 2015.
[23] C.V. Botinhao, B. S. Carlos, L. P. Caloba, and M. R. Petraglia, “Frequency extension of telephone narrowband speech signal using neural networks,” in Proc.Multiconf. Comput. Eng. Syst. Appl., 2006, vol. 2, pp. 1576–1579.
[24] J. Kontio, L. Laaksonen, and P. Alku, “Neural network-based artificial bandwidth expansion of speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 3, pp. 873–881, Mar. 2007.
[25] H. Pulakka and P. Alku, “Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2170–2183, Sep. 2011.
[26] K. Li and C.-H. Lee, “A deep neural network approach to speech bandwidth expansion,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 4395–4399.
[27] B. Liu, J. Tao, Z.Wen, Y. Li, and D. Bukhari, “A novel method of artificial bandwidth extension using deep architecture,” in Proc. Interspeech, 2015, pp. 2598–2602.
[28] Y. Wang, S. Zhao, W. Liu, M. Li, and J. Kuang, “Speech bandwidth expansion based on deep neural networks,” in Proc. Interspeech, 2015, pp. 2593–2597.
[29] J. Abel, M. Strake, and T. Fingscheidt, “Artificial bandwidth extension using deep neural networks for spectral envelope estimation,” in Proc. IEEE Int. Workshop Acoust. Signal Enhancement, 2016, pp. 1–5.
[30] Y. Gu and Z.-H. Ling, “Restoring high frequency spectral envelopes using neural networks for speech bandwidth extension,” in Proc. Int. Joint Conf. Neural Netw., 2015, pp. 1–8.
[31] Y.Wang, S. Zhao, J. Li, and J. Kuang, “Speech bandwidth extension using recurrent temporal restricted Boltzmann machines,” IEEE Signal Process. Lett., vol. 23, no. 12, pp. 1877–1881, Dec. 2016.
[32] Y. Gu, Z.-H. Ling, and L.-R. Dai, “Speech bandwidth extension using bottleneck features and deep recurrent neural networks,” in Proc. Interspeech, 2016, pp. 297–301.
[33] A. v. d. Oord et al., “WaveNet: A generative model for raw audio,” arXiv:1609.03499, 2016.
[34] S. Mehri et al., “SampleRNN: An unconditional end-to-end neural audio generation model,” in Proc. ICLR, 2017.
[35] Y. Gu and Z.-H. Ling, “Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension,” in Proc. Interspeech, 2017, pp. 1123–1127.
[36] D. Yu and M. L. Seltzer, “Improved bottleneck features using pretrained deep neural networks.” in Proc. Interspeech, 2011, pp. 237–240.
[37] Z. Wu, C. Valentini-Botinhao, O. Watts, and S. King, “Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 4460–4464.
[38] J. B. Allen and L. R. Rabiner, “A unified approach to short-time Fourier analysis and synthesis,” Proc. IEEE, vol. 65, no. 11, pp. 1558–1564, Nov. 1977.
[39] S. O. Arik et al., “Deep voice: Real-time neural text-to-speech,” arXiv:1702.07825, 2017.
[40] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, and T. Toda, “Speaker-dependent WaveNet vocoder,” in Proc. Interspeech, 2017, pp. 1118–1122.
[41] Y.-J. Hu, C. Ding, L.-J. Liu, Z.-H. Ling, and L.-R. Dai, “The USTC system for blizzard challenge 2017,” in Proc. Blizzard ChallengeWorkshop, 2017.
[42] I. Recommendation, “G. 711: Pulse code modulation (PCM) of voice frequencies,” Int. Telecommun. Union, 1988.
[43] Y. Fan, Y. Qian, F.-L. Xie, and F. K. Soong, “TTS synthesis with bidirectional LSTM based recurrent neural networks.” in Proc. Interspeech, 2014, pp. 1964–1968.
[44] J. Sotelo et al., “Char2wav: End-to-end speech synthesis,” in Proc. ICLR Workshop Track, 2017, pp. 1–6.
[45] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, “DARPA TIMIT acoustic-phonetic continuous speech corpus CD-ROM. NIST speech disc 1–1.1,” NASA STI/Recon Tech. Rep. LDC93S1, vol. 93, 1993.
[46] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in Proc. ICLR, 2015.
[47] I. Recommendation, “P. 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs,” Int. Telecommun. Union, 2007.
[48] A. O. Watson, “Assessing the quality of audio and video components in desktop multimedia conferencing,” Ph.D. dissertation, Univ London, London, U.K., 2001.
[49] S. Buchholz and J. Latorre, “Crowdsourcing preference tests, and how to detect cheating,” in Proc. Interspeech, 2011, pp. 1118–1122.