《统计学习方法(第二版)》李航 读书笔记 (7)第4章 朴素贝叶斯法和信息论一些概念
《统计学习方法(第二版)》李航 读书笔记 (7)
第4章 朴素贝叶斯法和信息论一些概念
对于给定的数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
应用方面包括故障诊断(diagnose)、专家系统(expert system)、规划(planning)、学习(learning)、分类(classifying)。
具体执行方法:
首先是先验概率分布:
然后是条件概率分布:
就可以得到联合概率分布。注意条件概率为指数级别的参数
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设相当于说用于分类的特征在类确定的条件下都是条件独立的。
代入上边的式子
分母是求和,所以与k值无关
朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化
对X=x逐个极小化
因此根据期望风险最小化准则就得到了后验概率最大化准则
先验概率P(Y=ck)的极大似然估计是:
设第j个特征x(j)可能取值的集合为:
条件概率的极大似然估计:
其中I是指示函数
算法4.1 朴素贝叶斯算法(naïve Bayes algorithm)
- 输入:
- 训练数据集
- 第i个样本的第j个特征
- 第j个特征可能取的第l个值
- 训练数据集
- 输出:
- x的分类
- x的分类
具体步骤:
- 计算先验概率和条件概率:
- 对于给定的实例
计算
- 确定x的类别
用自己的语言解释一下:就是把Y所有可能的取值对应的X所有特征的所有可能取值,分别计算条件概率分布后,取给定x的各个特征对应的条件概率相乘再乘以Y的先验概率分布。
这样一说好像……
更难懂了
用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概率的计算结果,使分类产生偏差.解决这一问题的方法是采用贝叶斯估计
条件概率的贝叶斯估计:
先验概率的贝叶斯估计:
λ应该大于等于0,λ=0时就是极大似然估计,λ= 1时称为拉普拉斯平滑(Laplacian smoothing)
课本上的内容就到这里
接下来是有关信息论
阻塞:一条路径被结点集 F 阻塞,是指在路径上存在一个结点 Z 满足下面三种情形之一:
(1) Z∈ F,并且路径中有一条有向弧指向 Z,另一条有向弧源自 Z;
(2 )Z∈ F,并且路径中有两条有向弧源自 Z;
(3) Z 及 Z 的所有后继结点都不在 F 中,并且路径中有两条有向弧指Z。
d-separation:令 X,Y 和 Z 是一个有向无环图 G 中三个不相交节点的子集,如果在集合 X 和 Y 中所有节点间的所有路径都被集合 Z 所阻塞,则称集合 X 和 Y 被 Z 集合 d-separation,表示为<X,Y|Z>G,也称 Z为 A 和 B 的切割集。否则,称在给定集合 Z 下集合 X 和 Y 图形依赖。
I-map: 假设 G 是以随机变量 Y1,Y2,…,Yn 为节点的一个有向无环图,P 是随机变量 Y1,Y2,…,Yn的联合概率函数,如果从图 G 中得到的每一个独立性假设(Yi在给定其父母节点变量的情况下独立于它的非后代节点)在联合概率 P 的计算中都成立,则称 G 是该概率分布 P 的一个独立映射(Independence-map, I-map)。
信息增益:
- 条件熵H(Y|X):表示在己知随机变量X的条件下随机变量Y的不确定性,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:
- 定义 (信息增益):特征A对训练数据集D的信息增益,g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
g(D,A)=H(D)-H(D|A)
- (Information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度.
- —般地,熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information)
决策树学习中的信息增益等价于训练数据集中类与特征的互信息
- 设信源X为离散随机变量,则用来度量X的不确定性的信息熵H(X)为
- 设(X,Y )均为离散随机变量,用来度量二元随机变量的不确定性联合信息熵H(X,Y )为
- 条件信息熵H(X|Y )用来度量在收到随机变量Y 提供的信息后,随机变量X仍然存在的不确定性
- 互信息I(X;Y )用来描述随机变量Y 提供的关于X的信息量的大小。
- 在已知Y 的前提下,随机变量X和Z之间的条件互信息定义为
- 条件独立:对概率模式 M,A,B 和 C 是 U 的三个互不相交的变量子集,如果对 ∀x ∈A, ∀y ∈B和 ∀z ∈C都有 p ( x|y,z)= p(x|z),其中 p(y,z)>0,称给定 C 时 A 和 B 条件独立,记为 I(A,C,B)M。
Beta distribution
在α,β两个值的控制下x的概率分布,即控制Beta分布的性质
- 阶乘在实数域和复数域的扩展