贝叶斯算法(词袋模型+TF-IDF算法)

6贝叶斯算法(分类)

已知:P(X|H),求P(H|X)

贝叶斯算法(词袋模型+TF-IDF算法)

#通过抽样来获得先验概率

#贝叶斯例子

贝叶斯算法(词袋模型+TF-IDF算法)

#如果有多个特征的情况下会使得统计量巨大,n个特征,需要计算2n-1次

#解决办法:朴素贝叶斯(假设:特征X1,X2,X3……之间都是相互独立的)

贝叶斯算法(词袋模型+TF-IDF算法)

#贝叶斯模型

       #多项式模型

       #伯努利模型

       #混合模型

       #高斯模型

7词袋模型(Bag of Words)

#自然语言处理(Natural Language Processing)和信息检索(Infomation Retrieval)

#BoW忽略文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词来表达一段文字或文档。

贝叶斯算法(词袋模型+TF-IDF算法)

#例子:

贝叶斯算法(词袋模型+TF-IDF算法)

8TF-IDF算法

#TF(Term Frequency)提取词频

贝叶斯算法(词袋模型+TF-IDF算法)

#IDF(Inverse Document Frequency)逆文档频率

IDF大小与一个词的常见程度成反比

贝叶斯算法(词袋模型+TF-IDF算法)

贝叶斯算法(词袋模型+TF-IDF算法)

#例子

贝叶斯算法(词袋模型+TF-IDF算法)