思路
原始的贝叶斯公式为:
P(B|A)=P(AB)P(A)=P(A|B)⋅P(B)P(A)(1)
在分类问题中, y为类别, X为样本特征, 则已知待预测的样本特征
X, 预测它为类别
yi的概率为:
P(yi|X)=P(X|yi)P(yi)P(X)=P(yi)∏jP(xj|yi)P(X)(2)
P(yi)=类别为yi的样本数总样本数
P(xj|yi)=包含特征xj的类别为yi的样本类别为yi的样本数
需要注意, P(xj|yi)的值通常都很小, 连乘下来可能用double表示就变成了0了, 所以需要用平滑函数处理一下.
可以考虑用∑j1−log(1−P(xj|yi))代替∏jP(xj|yi).
