麦克风阵列波束形成

语音增强和语音识别系列博文

波束形成

beamforming 体现的是声源信号的空域选择性,许多传统波束形成方法具有线性处理结构;波束形成需要考虑三个方面:
1.麦克风阵列个数;2.性能; 3.鲁棒性
在麦克风较少时,波束形成的空域选择性差,当麦克风数量较多时,其波束3dB带宽较为窄,如果估计的目标声源方向有稍有偏差,带来的影响也更大,鲁棒性不好。通常鲁棒性和性能是对矛盾体,需要均衡来看。
通常波束方向图需要随环境的语音/噪声/干扰等统计信息进行调整,以达到最优滤波。常见波束形成的准则如最大信噪比准则(maximum signal-to-noise ratio MSNR),最小均方误差(minimum mean-squared error, MMSE), 线性约束最小方差(linearly constrained minimum variance, LCMV)。
多通道维纳滤波波束形成使用了最小均方误差MSE准则,
波束形成方法使用信号统计特征(一阶,二阶…),信号和噪声的统计特性通常又是变化的,如人走动,屋内物品移动,外界噪声源变动等,这就需要使用短时平稳和自适应方法来进行波束形成。

webrtc使用了如下几个点以提高鲁棒性和性能(其算法性能优先):
1.可以使用多个后置滤波器而非一个,2.每个后置滤波使用新的结构。
每个后置滤波器为每个声学场景的时频域bin在均方误意义上提供了最优实增益。在webrtc中后置滤波器根据声源的空域协方差矩阵,干扰源协方差矩阵,绕射场(零阶贝塞尔函数计算)以及临近麦克风的时频信号信息求得。
这样的话就可以为每个声源和干扰场景计算出不同的最优后置滤波器,也可以使用级联的方式灵活使用多个不同选择性的后置滤波器。
当前现存的波束形成算法的鲁棒性成为它们使用的一道门槛,如MVDR和多通道维纳滤波。
webrtc为了增强鲁棒性,在求最优矩阵时,对声源信号添加了限制条件,使用Gabor frame将声源变成时频bin的系数,对这些bin按照目标声源和干扰声源附加了条件,如果满足条件,则门操作让目标声源通过,而让干扰源乘以零以实现选择最优目标信号。
在webrtc中这些增益系数称为自适应标量(上面的实)乘法增益,均方误差准则被用来做为计算的准则。由于阵列方向响应随频率是变换的,而语音信号又是宽带信号,所以webrtc中使用了gabor变换来表示声音信号。增益源于目标信号和干扰的比例。
波动方程常有波数这个参数,相位的信息是通过实部和虚部表示出来的,列两个重要的参数。

声场

对于中高音,声音在室内以反射和散射为主,这一过程不断重复和往复直到能量变成零(吸收和传输损耗),这一过程约有16次之多。对于低音室内更像一个谐振腔,波长满足谐振条件的声波将会被放大,随着说话位置的位置变化,增强和对消的低音频率也会变化。

Schroeder frequency:
室内声音的谐振腔频率和反射/散射频率的分界点。对于居家室内场景该频率一般在100Hz~200Hz之间,在室内播放一个谐振频率的声波,人在室内不同的位置听到的音量差异是比较明显的,而对于中高音差别并不明显。
散射噪声场:
散射噪声场中,噪声能量向各个方向传播的概率是相等的。
包含若干个来自方向上均匀分布的相位随机的平面波,

假设空间中任意一点的声波压强表达式如下:

(1.0)p(t,r1)=limn1ni=1nAicos(ω+φi)

r1位置向量,参考点可以任意选取,则另外一点的声压表达时如下:
(1.1)p(t,r2)=limn1ni=1nAicos(ω+φi+(r2r1)ki)

其中k1,k2,k3,...是平面波的波数向量。

相干和非相干噪声

相干噪声
麦克风阵列波束形成
横轴是归一化频率(f=2)

非相干噪声
麦克风阵列波束形成

波动方程

  • 波数(k)
    沿着波的传播方向单位长度内波的全周期数。k=1/=fc,也可定义成k=2π/,这样可以理解成相位随距离的变化率。

  • 空域混叠
    对于时域有奈奎斯特定理(3.1)fs=1Ts2fmax
    在空间上,类似:

    fxa=1d2fxmax

    在波数方向图上,就是麦克风阵列旁瓣幅度可能大于主瓣幅度。

近场和远场

麦克风阵列波束形成
远场模型可以看成是平面波(左),传播方向是ζ0,远场要看成是球面波(右),传播方向ζm0
麦克风阵列波束形成
由于1.麦克风阵列间距相对于说话人距离1.5m/2.5cm60倍,假设符合远场模型。

固定波束形成

滤波器权值固定,方法简单,运算量低,能够抑制背景噪声,对可变噪声场,效果一般。

delay-sum

算是最简单的波束形成方法,一般用在电话会议场景,对非相干噪声效果较好,如空间白噪声,然而,如果噪声源是相干的,降噪的程度依赖于噪声的方向,在室内混响场景下,并不能获得很好的效果。
设输入信号是s(t),叠加噪声是加性的n(t),则第m个麦克风观测到的信号是:
xm(t)=s(t)+nm(t)
麦克风阵列波束形成
则将每一路信号经过冲击响应延迟后再相加可以得到时间匹配上的信号。
麦克风阵列波束形成
则延迟和输出是:
y(t)=m=0M1wmxm(t[Mm1]T)
麦克风阵列波束形成

filter-and-sum

麦克风阵列波束形成
和delay-sum相比其使用了幅度和相位不一致的权重。

麦克风阵列波束形成

自适应波束形成

如Frost/mvdr等,在相干噪声场,可以得到较高的信噪比改善,但是在弱相干噪声场和在散射噪声场中,性能不如固定波束形成。其一种结构可以如下:
麦克风阵列波束形成

后置滤波作用

可以用来去除非相干噪声,但是在相干噪声情况下性能退化,甚至不可用。zelinski后置滤波器的结构体如下:
麦克风阵列波束形成
apab(adaptive post-filter for an arbitrary beamformer) 后置滤波器
麦克风阵列波束形成
通常将自适应滤波器和后置滤波器结合起来以抑制相干和非相干噪声。
麦克风阵列波束形成

一张频谱图,可以反映它们之间的对比关系
麦克风阵列波束形成
问题建模如下:

(2.1)zm(t)=am(t)s(t)+nm(t)=am(t)s(t)+nms(t)+nmt(t)

其中m是麦克风索引下标,nmsnmt分别是稳态和非稳态噪声,是卷积,a是传播通道响应。
通过STFT可以得到:
(2.2)Zm(k,l)=Am(k)S(k,l)+Nm(k,l)=Am(k)S(k,l)+Nms(k,l)+Nmt(k,l)

其中l是帧索引,k=1,2,3,....K是频率bin索引。对于各个通道合并成向量表示法如下:
(2.3)Z(k,l)=A(k)S(k,l)+N(k,l)+A(k)S(k,l)+Ns(k,l)+Nl(k,l)

Z(k,l)=(Z1(k,l),Z2(k,l)...,Zm(k,l))T

当噪声场在空间上是非相干的,仅仅降噪还是不够的,还需要后置滤波,
* 频域Frost算法
Wm(k,l);m=1,2...,M是M个滤波器,则滤波器组的向量表示如下:
(2.4)WH(k,l)=[W1(k,l)W2(k,l)...WM(k,l)]

麦克风阵列波束形成
则滤波求和的输出如下:
(2.5)Y(k,l)=WH(k,l)Z(k,l)=WH(k,l)A(k,l)S(k,l)+WH(k,l)Ns(k,l)+WH(k,l)Nt(k,l)Ys(k,l)+Yn,s(k,l)+Yn,t(k,l)

其中Ys(k,l)是信号部分,而Yn,s(k,l)Yn,t(k,l)分别是准平稳噪声和非平稳噪声。波束形成器的输出功率是:
(2.6)E[Y(k,l)Y(k,l)]=E[WH(k,l)Z(k,l)ZH(k,l)W(k,l)]=WH(k,l)ΦZZ(k,l)W(k,l)

ΦZZ是信号的功率谱密度矩阵,目标是Ys(k,l)满足下述约束下输出功率最小:
(2.7)Ys(k,l)=WH(k,l)A(k)S(k,l)=F(k,l)S(k,l)

F通常是一些前置滤波器,最简单的就是delay-sum中的delay,不失一般性,可以令 F=1则最小化问题可以变为:
(2.8)minW{WH(k,l)ΦZZ(k,l)W(k,l)},WH(k,l)A(k)=1

式2.8一般拉格朗日法进行求解。
(2.9)L(W)=WH(k,l)ΦZZ(k,l)W(k,l)+λ[WH(k,l)A(k)1]+λ[AH(k,l)W(k)1]

其中λ是拉格朗日乘子,对权重因子W求偏导数并令结果等于零,可以得到:
(2.10)WLWΦZZ(k,l)W(k,l)+λA(k)=0

再将限制条件代入2.10得到;
(2.11)WLVCM(k,l)=ΦZZ1A(k)AH(k)ΦZZ1(k,l)A(k)

最小方差(Capon)波束形成

特征向量法(Eigenvector),

GSC/TF-GSC(Transfer function GSC)

GSC包括三个部分:1.固定波束形成,用于对齐延迟后的信号;2.阻塞矩阵(block matrix),用于阻止期望的语音信号,3.自适应噪声相消器,用于滤除固定波束形成旁瓣中残余的噪声。
GSC方法解决的问题和LCMV是一样的,但是把权重向量WLVCM分成了两个正交子空间的操作.

W

SVD

在降维,推荐系统等,信号盲源分离中用。

NTT

方法复杂,但是和传统MVDR相比计算量并没特别大的增加。

线性预测法

LVCM(又称Frost Filter)

相比维纳滤波,有时无法获得参考信号,这时就无法求得参考信号和观察信号的误差,进而其推导依据的误差是无法获得的,也就无法求解。
维纳滤波的MSE准则的代价函数是:

(2.12)J(h)=E[e(k)2]=hTRyyh2ryxTh+σx2

LVCM的思想是既然x(k)是无法预知的,那么就令x(k)=0,这样把代价函数简化为:
(2.13)J(h)=E[e(k)2]=hTRyyh

这样的化,就优解将是h=0L×1,这样显然不满足要求,可以根据实际问题对h加约束条件:
(2.14)CTh=u

其中CL×Lc大小约束矩阵,[u0]
u=[u0u1uLc1]T

则最优滤波器可以表述如下:
(2.15)minhJ(h)CTh=u

使用拉格朗日乘子法,可以获得2.11的解。

MVDR

为了鲁棒性,通常加对角阵扩大主瓣。

SDW-MWF

speech distortion weighted multichannel winner filter.

上述beamforming算法通常还会加后处理,以减小语音失真度。

卡尔曼滤波

卡尔曼滤波是维纳滤波的推广,可以处理非稳态过程。
假设观测到的信号是

(3.1)y(k)=x(k)+v(k)=h1TX(k)+v(k)

v(k)是零均值高斯白噪声,噪声的方差σv2=E[v2(k)]h1=[100]T,假设语音信号可以表示成下式:
(3.2)x(k)=l=1Lalx(kl)+v(k)

al,l=1,2,,L可以看成是信号x(k)的预测系数,则3.2的向量表示是:
(3.3)X(k)=Ax(kl)+vx(k)h1

BSS(Blind source separation)

使用ICA(independent component analysis)技术。

CASA(computational Auditory Scene Analysis)

模拟人类听觉系统的分辨能力。