贝叶斯算法(词袋模型+TF-IDF算法)
6贝叶斯算法(分类)
已知:P(X|H),求P(H|X)
#通过抽样来获得先验概率
#贝叶斯例子
#如果有多个特征的情况下会使得统计量巨大,n个特征,需要计算2n-1次
#解决办法:朴素贝叶斯(假设:特征X1,X2,X3……之间都是相互独立的)
#贝叶斯模型
#多项式模型
#伯努利模型
#混合模型
#高斯模型
7词袋模型(Bag of Words)
#自然语言处理(Natural Language Processing)和信息检索(Infomation Retrieval)
#BoW忽略文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词来表达一段文字或文档。
#例子:
8TF-IDF算法
#TF(Term Frequency)提取词频
#IDF(Inverse Document Frequency)逆文档频率
IDF大小与一个词的常见程度成反比
#例子