您的位置: 首页 > 文章 > 《数学之美（第一版）》笔记 ——第3章

《数学之美（第一版）》笔记 ——第3章

分类: 文章 • 2024-07-21 23:18:40

第3章：统计语言模型

自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递的方式，因此让计算机处理自然语言，一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。这个数学模型就是在自然语言处理中常说的 **统计语言模型（ Statistical Language Model ） **，它是今天所有自然语言处理的基础，并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。
判断一个文字序列是否合乎文法、含义是否正确等，贾里尼克的做法是：一个句子是否合理，就看看它的可能性大小如何。

关于隐式马尔科夫模型：

计算过程（1元模型 1-gram model）：
高阶语言模型
没有使用更高阶的模型的原因是：
- 随着N的变大，时间复杂度是指数级别的。其中|V|为词汇量大小。
  $O(|V|^{N})$
- 但N从1到2，再从2到3时，模型效果上升显著。而当模型从3到4时，效果不是很显著。
马尔科夫假设的局限性：无法解决长程的依赖性。

关于零概率问题和平滑方法

问题的出现：
- 当 #(w_i-1, w_i)=0 的时候，条件概率 P(w_i|w_i-1) 为0。
- 当 #(w_i-1, w_i) 和 #(w_i-1) 都只出现了1次，是否得出 P(w_i|w_i-1)=1 的结论（可靠性问题）
古德-图灵估计：解决好统计样本不足时的概率估计问题。
以下解释一元组的条件概率估计：
对于二元组
三元组