商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)


分类(classification):总结已有类别的对象的特点并进而进行未知类别对象的类别预测的过程。

决策树分类方法

决策树(decision tree)是一个类似于流程图的树结构。树的最顶层节点是根节点,根节点与每个内部节点表示数据集合在某个属性上的测试,每个分枝代表一个数据子集的输出,而每个叶子(树叶)节点代表类或类分布。

决策树
-叶子节点:类别
-其余节点:属性
-树的层次
根结点的层次为1
根结点的子女结点的层次为2
……
-边:一种基于此结点属性的判断(分裂)条件
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
奥卡姆剃刀(Occam’s Razor)原理:
“如无必要,勿增实体”(Entities should not be multiplied unnecessarily)
一棵小的树的预测能力更好

分类属性的选择
信息熵entropy(D):消除不确定性所需的信息量 (bit)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
数据集D及类别集合C={c1, c2, …, ck}
count(ci):类别ci在D中出现的次数,
p(ci):ci在D中出现的相对频率
p(ci)=count(ci)/|D|
|D|代表D中的数据行数
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
信息熵越大,不纯性越大;信息熵越小,不纯性越小。

例:
训练样本集合D,样本个数14;分类属性为buys_computer, 取值为c1=yes,c2=no.
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
集合D
分类所需的期望信息(不纯性)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
基尼指数(Gini Index)
Gini指标在CART中使用,并考虑每个属性的二元划分
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
提供最小ginisplit 就被选择作为分割的标准。

朴素贝叶斯分类方法

定理
设A1,…, An是S的一个划分,且P(Ai) > 0,(i=1,…,n),则对任何事件∈S,有
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
称为贝叶斯公式。

贝叶斯分类主要包括:
朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值,这一假定称作类条件独立。做此假定是为了简化计算,并在此意义下被称为“朴素的”。
贝叶斯信念网络:是图形模型,可以表示属性子集间的依赖。

概率计算—定性属性
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

P(性别=男|是)=3/5
P(性别=女|是)=2/5

商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
类别=“是”时,
年收入的均值μ为103,标准差σ为56.8
类别=“否”时,
年收入的均值μ为70,标准差σ为25
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

x=(年龄<30,男,年收入30万,单身),要预测其是否购买豪华车

商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
在计算P(是|x)时,由于年龄<30的情况在类别为是的训练数据集中没有出现,导致结果为0
平滑(smoothing)方法
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

count(xj, ci)代表训练数据集中类别为ci且属性Aj取值为xj的样本个数,count(ci)代表训练数据集中类别为ci的样本个数。m和p的取值有各种不同的方法,一种常用的取值为,p=1/|C|, m=|C|,C为类别集合,|C|为类别的个数

处理后:
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
示例:训练样本集合D,样本个数14;类属性为buys_computer, 取值为c1=yes,c2=no.
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

求最大化P(X|Ci)P(Ci),i=1,2。需要根据训练样本计算每个类的先验概率P(Ci)有:
P(buys_computer=“yes”)=9/14=0.643
P(buys_computer=“no”)=5/14=0.357
为计算P(X|Ci),i=1,2。需要计算条件概率:
P(age=“<30”|buys_computer=“yes”)=2/9=0.222
P(age=“<30”|buys_computer=“no”)=3/5=0.600
P(income=“medium”|buys_computer=“yes”)=4/9=0.444
P(income=“medium”|buys_computer=“no”)=2/5=0.400
P(student=“yes”|buys_computer=“yes”)=6/9=0.667
P(student=“yes”|buys_computer=“no”)=1/5=0.200
P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.400
使用以上概率,可以得到:
P(X|buys_computer=“yes”)
=0.222 * 0.444 * 0.667 * 0.667=0.044
P(X|buys_computer=“no”)
=0.600* 0.400 * 0.200 * 0.400=0.019
P(X|buys_computer=“yes”) P(buys_computer=“yes”)
=0.044 * 0.643=0.028
P(X|buys_computer=“no”) P(buys_computer=“no”)
=0.019*0.357=0.007
因此,对于样本X,朴素贝叶斯分类预测:buys_computer=“yes”
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)
商务智能大总结3 分类(决策树分类 朴素贝叶斯分类 k近邻分类)

k近邻分类方法

算法基本步骤:
1)计算待分类点与已知类别的点之间的距离
2)按照距离递增次序排序
3)选取与待分类点距离最小的k个点
4)确定前k个点所在类别的出现次数
5)返回前k个点出现次数最高的类别作为待分类点的预测分类