语言模型

语音增强和语音识别系列博文

电话有效语音范围125Hz $\sim$ 3800Hz。使用HMM做为语音识别系统的前提是连续语音特征可以分成准静态序列。这些状态序列之间是不相关的，系统通常采用25ms的帧长，10ms的滑动长度，提取特征MFCC/PLP做分析特征。
上面的假设的HMM状态的独立性在语音上实际上并不成立，这是由于观察到的每一帧语音都或多或少依赖前面的语音（发音器官的生物物理特性）。所以希望将发音轨迹（或者说帧于帧之间的联系）做为一个特征合并到单帧得到的特征序列里（这样可以不破坏HMM结构）。这一添加的特征被称为动态系数（或者delta参数 $Δ y (t)$ ），可以按照如下的方式计算：
$Δ y (t) = \frac{\sum_{τ = d}^{D} τ (y (t + τ) - y (t - τ))}{2 \sum_{τ = d}^{D} τ^{2}}$
如果 $d = 1$ ，则可以计算得到线性回归动态delta参数。如果开始和结束帧的距离相等，如 $d = D$ ，则反应不同的动态参数将回退到一个时间差的计算。如果把动态参数做为输入，则可以得到加速度 $Δ^{2}$ 。
对于小词汇量识别，可以为每个单词构建一个HMM模型。然而，对于大词汇量识别，通常采取的方法是将单词拆分成更小的识别单元，如（音节或者音素）。发音字典的作用就是将单词和其识别单元（音节或者音素）建立映射关系。基于单词的HMM识别系统将最小识别单元序列连接起来。
.单音素模型：使用完整的音素集，而不考虑前后音素。然而随着前后音素的变化，当前音素的声学特征可以变化，也就是协同发音效应。
三音素模型：对于前后音素，选择当前最有可能的音素。
完整的三音素集非常大，并且训练数据也可能没有百分之百覆盖所有的三音素。为了获得好的模型参数估计，三音素之间需要尽可能使用相同的参数。最常用的方法是将在HMM状态层面上进行三音素之间合并（声学聚类）。三音素模型不能很好的处理训练语料不足的发音情况，这类情况的一种解决方法是使用音素决策树。

声学模型和语言模型是分开训练的，训练集差异导致不匹配问题，
$\hat{W} = \arg max_{W} [α \log P (W) + l o g p (Y_{T} | W) - ϕ N_{W}]$
$α$ 是语言模型缩放因子， $ϕ$ 是词嵌入惩罚因子， $N_{W}$ 是单词序列 $W$ 中单词的个数。

导谱均值归一化可以消除部分卷积噪声。提取噪声健壮性特性。
语音补偿和增强技术包括谱减法，自适应噪声消除以及概率最优滤波器。

语言模型的基本任务是估计一个每一个单词序列一个概率。 $\sum_{w \in \sum} p (w) = 1$ ，在语音识别中影响词的选择，如：
$p (他喜欢吃苹果) > p (他喜欢痴苹果)$
语言模型的好坏估计使用perplexity。

基于计数的N-元语法模型

使用马尔科夫假设建模语音模型。

只有之前的信息对当前的信息有影响
只根据前K-1个单词推测当前单词
这是一个k阶马尔科夫过程。
对于2元语法模型：
$p (w_{1}, w_{2}, w_{3}, . . ., w_{n}) = p (w_{1}) p (w_{2} | w_{1}) p (w_{3} | w_{1}, w_{2}) \times . . . \times p (w_{n} | w_{1}, w_{2}, . . ., w_{n - 1}) \approx p (w_{1}) p (w_{2} | w_{1}) p (w_{3} | w_{2}) \times . . . \times p (w_{n} | w_{n - 1})$
对于3元语法模型的最大似然估计是：
$p (w_{3} | w_{1}, w_{2}) = \frac{c o u n t (w_{1}, w_{2}, w_{3})}{c o u n t (w_{1}, w_{2})}$
文本语料比较容易获得。由于可能存在统计语料不充分的情况，一个更好的平滑策略如下：
$p_{1} (w_{n} | w_{n - 2, w_{n - 1}}) = λ_{3} p (w_{n} | w_{n - 2, w_{n - 1}}) + λ_{2} p (w_{n} | w_{n - 1}) + λ_{1} p (w_{n})$
其中 $λ_{3} + λ_{2} + λ_{1} = 1$

优点：
* 具有卓越可扩展性，训练的文本集可以可以包括万亿的单词
* 测试时间固定且快
* 复杂的平滑技术可以获得效果很好的语言模型

缺点
* N很大时将获得稀疏分布，难获取长时间依赖。
* 单词之间的相似性无法获得，如cat-dog( word2vec)

基于RNN的语法模型

语言模型
展开后是：

基于计数的N-元语法模型

基于RNN的语法模型

相关推荐