《数学之美(第一版)》笔记 ——第3章

第3章:统计语言模型

  • 自 然 语 言 从 它 产 生 开 始 , 逐 渐 演 变 成 一 种上 下 文 相 关 的 信 息 表 达 和 传 递 的 方 式 , 因 此 让 计 算 机 处 理 自 然 语 言 , 一个 基 本 的 问 题 就 是 为 自 然 语 言 这 种 上 下 文 相 关 的 特 性 建 立 数 学 模 型 。 这个 数 学 模 型 就 是 在 自 然 语 言 处 理 中 常 说 的 **统 计 语 言 模 型 ( Statistical Language Model ) **, 它 是 今 天 所 有 自 然 语 言 处 理 的 基 础 , 并 且 广 泛 应 用于 机 器 翻 译 、 语 音 识 别 、 印 刷 体 或 手 写 体 识 别 、 拼 写 纠 错 、 汉 字 输 入 和文 献 查 询 。

  • 判断一个文字序列是否合乎文法、含义是否正确等,贾里尼克的做法是:一个句子是否合理,就看看它的可能性大小如何
    《数学之美(第一版)》笔记 ——第3章

关于隐式马尔科夫模型:《数学之美(第一版)》笔记 ——第3章

  • 计算过程(1元模型 1-gram model):
    《数学之美(第一版)》笔记 ——第3章《数学之美(第一版)》笔记 ——第3章

  • 高阶语言模型
    《数学之美(第一版)》笔记 ——第3章

  • 没有使用更高阶的模型的原因是:

    • 随着N的变大,时间复杂度是指数级别的。其中|V|为词汇量大小。
      O(VN) O(|V|^{N})
    • 但N从1到2,再从2到3时,模型效果上升显著。而当模型从3到4时,效果不是很显著。
  • 马尔科夫假设的局限性:无法解决长程的依赖性。

关于零概率问题和平滑方法

  • 问题的出现:

    • 当 #(w_i-1, w_i)=0 的时候,条件概率 P(w_i|w_i-1) 为0。
    • 当 #(w_i-1, w_i) 和 #(w_i-1) 都只出现了1次,是否得出 P(w_i|w_i-1)=1 的结论(可靠性问题)
  • 古德-图灵估计:解决好统计样本不足时的概率估计问题。

  • 以下解释一元组的条件概率估计:
    《数学之美(第一版)》笔记 ——第3章
    《数学之美(第一版)》笔记 ——第3章
    《数学之美(第一版)》笔记 ——第3章
    《数学之美(第一版)》笔记 ——第3章

  • 对于二元组
    《数学之美(第一版)》笔记 ——第3章

  • 三元组
    《数学之美(第一版)》笔记 ——第3章