自然语言模型

1、定义:自然语言模型是一个计算单词序列(句子)的概率模型。
其实就是判断一个句子的合理性。
例如:
我今天要去【上班】
我今天要去【游泳】
我今天要去【爬山】
通过语言模型计算出去【上班】 的概率最大,得出我今天要去爬【上班】

N-Gram

常用的有BiGram和TriGram,相当于一个滑动窗口,用于计算窗口内词(字)顺序的概率
句子的概率通常是通过待预测单词之前长度为n的窗口建立条件概率来进行预测,此处引入马尔科夫假设
自然语言模型
为了估算条件概率,常用极大似然估计
自然语言模型
解释:
bigram是n=2
《s》后面是 I 的概率为0.67,《s》 后面是 Sam 的概率为0.33
得出最大概率为《s》 I
I 后面是 am 的概率为0.67, I 后面是do的概率是0.33
得出最大概率为 I am
。。。
最终的到
《s》 I am Sam《s》

例如 i want to eat chinese food lunch spend自然语言模型