第七章 分类

一、分类的基本概念

  • 分类的概念:分类就是根据以往的数据和结果对另一部分数据进行结果的预测。
  • 分类预测的基本过程:历史数据称为训练数据,要预测的数据称为测试数据,结果称为类标签。分类预测主要有学习和分类两个阶段。利用数据进行模型参数的调节过程称为训练或学习,训练的结果是产生一个分类器或者分类模型,进而可以根据这个模型对预测数据进行预测,得到相应的类标签结果。类标签的数据种类可以分为二分类和多分类。
    第七章 分类
    训练数据是有已知的类标签的,而且训练数据除类标签外,其余部分的结构和测试数据需要完全一致,即特征数量要对应。
    (1)信息熵:是随机变量不确定性的度量,信息熵的常用单位是比特。
    (2)信息增益:某一特征的信息对类标签的不确定性减少的程度。信息增益定义为数据集合D的信息熵与在特征A给定条件下数据集合D的信息熵之差。信息增益越大,表明特征越重要,在一类算法中,可以根据信息增益的大小选择合适的特征。
    (3)信息增益率:
    (4)基尼指数:用来度量数据分区或者训练数据不纯度的,数据分区是指为了将整体数据按照一定准则分别把数据分成不同的区间。

二、分类的评价指标
准确率,召回率,F值
TP:指分类器将正类预测为正类的个数
FP:指分类器将负类预测为正类的个数
TN:指分类器将负类预测为负类的个数
FN:指分类器将正类预测为负类的个数
(1)准确率:预测对的数量/预测的总数:
accuracy =(TP+TN)/(P+N)
(2)召回率:用来评价模型的灵敏度和识别率,正类/总正样数
recall = TP/(TP + FN )
(3)F 值:衡量综合准确率和召回率的评价指标
F = 2*accuracy * recall /(accuracy + racall )

贝叶斯公式:因为P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)
所以P(B|A) = P(A|B)*P(B) / P(A)