周志华 机器学习 Day7

剪枝处理

剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝"和"后剪枝 "。

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.。(类似于树的先序和后序,将访问到的结点变为叶结点)

具体示例请看书本P81~P82


连续值与缺失值

连续值处理

由于连续属性的可取值不再有限,因此不能直接根据连续属性的可取值来对结点进行划分,此时采用的方法是“二分法”。

我们一般选取最优的划分点是选取区间中位点,这样能够将划分点在训练集中都出现过。


缺失值处理

(不明白,仍需查找资料)


多变量决策树

若我们把每个属性视为坐标空间中的一个坐标轴,则d个属性描述的样本就对应了d维空间中的一个数据点,对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类便捷。


注:本次内容图画过多,配合书本看。



神经网络

神经元模型

神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。我们常说的神经元模型指的是“M-P神经元模型”,该模型中的神经元接收来自n个其他神经元传来的信号,通过与神经元的阈值进行比较,然后通过“**函数”处理以产生神经元的输出。

理想中的**函数是“阶跃函数”,它将输入值映射为输出值“0”或“1”。然而,阶跃函数并不连续、不光滑;因此,常用Sigmoid函数作为**函数,它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内。

周志华 机器学习 Day7

感知机与多层网络

感知机由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元。

感知机的学习规则是:周志华 机器学习 Day7则感知机权重将这样调整:

周志华 机器学习 Day7

其中,xi是w对应于第i个输入神经元的分量,η∈(0,1)是学习率。


误差逆传播算法

简称BP算法,不仅可用于多层前馈神经网络,还可用于其他类型的神经网络,例如“训练递归神经网络”。