《数学之美(第一版)》笔记 ——第3章
第3章:统计语言模型
-
自 然 语 言 从 它 产 生 开 始 , 逐 渐 演 变 成 一 种上 下 文 相 关 的 信 息 表 达 和 传 递 的 方 式 , 因 此 让 计 算 机 处 理 自 然 语 言 , 一个 基 本 的 问 题 就 是 为 自 然 语 言 这 种 上 下 文 相 关 的 特 性 建 立 数 学 模 型 。 这个 数 学 模 型 就 是 在 自 然 语 言 处 理 中 常 说 的 **统 计 语 言 模 型 ( Statistical Language Model ) **, 它 是 今 天 所 有 自 然 语 言 处 理 的 基 础 , 并 且 广 泛 应 用于 机 器 翻 译 、 语 音 识 别 、 印 刷 体 或 手 写 体 识 别 、 拼 写 纠 错 、 汉 字 输 入 和文 献 查 询 。
-
判断一个文字序列是否合乎文法、含义是否正确等,贾里尼克的做法是:一个句子是否合理,就看看它的可能性大小如何。
关于隐式马尔科夫模型:
-
计算过程(1元模型 1-gram model):
-
高阶语言模型
-
没有使用更高阶的模型的原因是:
- 随着N的变大,时间复杂度是指数级别的。其中|V|为词汇量大小。
- 但N从1到2,再从2到3时,模型效果上升显著。而当模型从3到4时,效果不是很显著。
- 随着N的变大,时间复杂度是指数级别的。其中|V|为词汇量大小。
-
马尔科夫假设的局限性:无法解决长程的依赖性。
关于零概率问题和平滑方法
-
问题的出现:
- 当 #(w_i-1, w_i)=0 的时候,条件概率 P(w_i|w_i-1) 为0。
- 当 #(w_i-1, w_i) 和 #(w_i-1) 都只出现了1次,是否得出 P(w_i|w_i-1)=1 的结论(可靠性问题)
-
古德-图灵估计:解决好统计样本不足时的概率估计问题。
-
以下解释一元组的条件概率估计:
-
对于二元组
-
三元组