前序
[数理知识]贝叶斯公式和最大似然估计笔记
1 决策理论与方法
1.1 基于先验概率的决策过程
记 x 为观察到的样本特征,分类空间为A={a1,a2...,an},其中ai为第i个类,P(ai)为类ai的发生概率。
-
x=[x1,x2,...,xd]T为由d维空间组成的特征向量。
- 当 P(aj)>P(aothers)时,记决策规则x∈aj。
- 当做出决策x∈aj之后,单类分类错误率P(errorj)=1−P(aj),即 x∈/aj的概率。
可以看到,一般决策过程仅依靠先验概率P(aj),使得对 x 的观察(特征参考)并没有对决策过程产生影响,总体错误率仍有降低的空间。
1.2 基于贝叶斯公式的决策过程
贝叶斯决策:在观察到x 的样本特征后,基于贝叶斯公式,可以有效降低分类错误率:
P(ai∣x)=p(x)p(x∣ai)P(ai)=∑j=1np(x∣aj)P(aj)p(x∣ai)P(ai)其中, p(x∣ai)是类条件密度,P(ai)是先验概率,p(x)是总体密度,P(ai∣x)是后验概率;
- 因此在本质上,贝叶斯决策是指:[后验概率]等于[先验概率]与[类条件密度]的乘积,最后采用[总体密度]做归一化。同时,[总体密度]由全概率公式又可以转化为所有类的[先验概率]与其[类概率密度]乘积之和。
贝叶斯决策也被称作统计决策理论。
- 记λ=p(x)p(x∣ai) ,所以基于贝叶斯决策的决策的错误率:
P(errori)=1−P(ai∣x)=1−λ×P(ai)
贝叶斯分类决策增益 λ 是对先验概率P(ai)的增益,是基于对x的观测而得到的,其值等于类条件概率在总体密度上的归一值,增益程度取决于类条件概率 p(x∣ai)——当ai越容易导致x的发生时(类条件概率越大),则增益程度越高(λ越大),第i类的分类错误率越低。
1.3 决策错误率
(总体)决策错误率定义为所有服从同样分布的独立样本上的单类错误率的期望,即:
P(e)=∫P(e∣x)×p(x)dx
- 其中,P(e∣x)即为单类分类错误率P(errori)在连续函数上的表示法。
- 显然,贝叶斯决策由于增益λ的存在,能有效降低决策错误率。
2 贝叶斯决策的优化
2.1 最小错误率贝叶斯决策
对于每次决策,取后验概率最大的决策,即可使得决策错误率最小。
P(ai∣x)=j=1..nmaxP(aj∣x)
2.1.1 二分类问题的决策错误率
针对二分类问题,由于总体概率密度p(x)相同,有以下变体:
l(x)=p(x∣a2)p(x∣a1)≷λ=P(a1)P(a2),x∈{a1a2
当l(x)大于阈值λ时,分为第一类,否则为第二类。(注意:此处的λ与上文的"增益"概念不同)
m≷n,x∈{a1a2Tips: 上式可用伪代码表示为:x=m>n?a1:a2
2.1.2 二分类问题的决策面
当l(x)=λ,即后验概率P(a1∣x)=P(a2∣x)时,使得样本 x 落在分界线左侧(l(x)>λ)时分为第一类,否则为第二类;该分界线被称为决策面或分类面。
- 记−(∞,t)为ℜ1,(t,∞)为ℜ2;t为分类面对x的划分值。
则二分类问题中的平均错误率为:
P(e)=∫−∞tP(a2∣x)p(x)dx+∫t∞P(a1∣x)p(x)dx=∫−∞tp(x∣a2)P(a2)dx+∫t∞p(x∣a1)P(a1)dx=∫ℜ1p(x∣a2)P(a2)dx+∫ℜ2p(x∣a1)P(a1)dx=P(a2)∫ℜ1p(x∣a2)dx+P(a1)∫ℜ2p(x∣a1)dx=P(a2)P2(e)+P(a1)P1(e)
- 注意到,P1(e)=∫ℜ2p(x∣a1)dx,是把第一类的x决策为第二类的错误率;反之亦然。
- 两类错误率对相应类别的先验概率求取加权和即为二分类问题中的分类错误率。
2.2 最小风险贝叶斯决策
记λ(βi,aj)是指对实际为aj的样本x采取决策βi所带来的风险(损失)。
- 注意到:λ(βi,aj),当i=j时,分类正确;i≠j时,为把属于i类分为第j类的损失。
2.2.1 决策风险及其计算
若有 n 个类和 k 个决策,则损失是:
R(βi∣x)=j=1∑nλ(βi,aj)P(aj∣x),i=1,...k对于决策规则β(x)=∑βΔ,其损失的总体期望为:
R(β)=∫R(βΔ∣x)p(x)dx
对于一个实际问题,求取最小风险贝叶斯决策可以按照以下步骤求取:
- 由贝叶斯公式计算后验概率:
P(ai∣x)=∑j=1np(x∣aj)P(aj)p(x∣ai)P(ai),i=1,2,...,n
- 计算条件风险:
R(βi∣x)=j=1∑nλ(βi,aj)P(aj∣x),i=1,...k
- 优化目标:
β∗=argi=1,...,kminR(βi∣x)
2.2.2 最小风险贝叶斯决策向最小错误率决策的转化
考虑二分类问题,简记λij=λ(βi,aj):
λ11P(a1∣x)+λ12P(a2∣x)≶λ21P(a1∣x)+λ22P(a2∣x),x∈{a1a2⋅⋅⋅⋅⋅⋅①
- 注意到:λij当i=j时,分类正确;i≠j时,为把属于i类分为第j类的损失。
注意:此处的 ≶ 与上文中的 ≷ 正好相反。
不失一般性,可以假设λ11<λ21,λ22<λ12。
则①式可化为:
(λ11−λ21)P(a1∣x)P(a1∣x)P(a2∣x)p(x∣a1)P(a1)p(x∣a2)P(a2)=P(a1∣x)p(x)P(a2∣x)p(x)l(x)−1=p(x∣a1)p(x∣a2)l(x)=p(x∣a2)p(x∣a1)≶(λ22−λ12)P(a2∣x),x∈{a1a2⋅⋅⋅⋅⋅⋅②≶(λ12−λ22)(λ21−λ11),x∈{a1a2≶(λ12−λ22)(λ21−λ11),x∈{a1a2≶λ−1=P(a2)P(a1)×(λ12−λ22)(λ21−λ11),x∈{a1a2≷λ=P(a1)P(a2)×(λ21−λ11)(λ12−λ22),x∈{a1a2
- 当 λ11=λ22=0,λ12=λ21=c (c为正常数)时,就是最小错误率贝叶斯分类决策。即分类正确时无风险,分类错误时风险一致。
注意:此处的 ≶ 与上文中的 ≷ 的方向,后者意为 x=m>n?a1:a2 。
3 两类错误率
在二分类问题中,有以下决策分布表:
决策分布表 |
决策 |
已知 |
阳性 |
阴性 |
正类 |
(真阳)TP |
(假阴)FN |
负类 |
(假阳)FP |
(真阴)TN |
分界线 |
P(阳性)和N(阴性)之间的线即为分界线;P高则N少,反之亦然。 |
3.1 正确分类的指标
- 灵敏度(命中率,sensitivity) = 真阳除以所有正类:
Sn=TP+FNTP⋅⋅⋅TPR
- 特异度(敏感率,specificity) = 真阴除以所有负类:
Sp=TN+FPTN⋅⋅⋅TNR
很容易注意到:
-
Sn表示真正的阳性样本(正类)中有多少能被正确检测出来;灵敏度高指的是能够正确分辨多少目标个体。
-
Sn表示真正的阴性样本(负类)中有多少能被正确检测出来;特异度高指的是不易把非目标个体选中。
- 显然,鉴于二分类器的特性,二者不可能同时取得高值(若分类器认为的P的个体数多,则N的个体数必然变少)。
3.2 错误分类的指标
- 第一类分类误差(假阳性,假报率,False Alarm,Type−Ⅰ Error) = 假阳除以所有负类:
α=1−Sp=TN+FPFP⋅⋅⋅FPR
- 第二类分类误差(假阴性,漏检率,Missed Detection,Type−Ⅱ Error) = 假阴除以所有正类:
β=1−Sn=TP+FNFN⋅⋅⋅FNR
很容易注意到:
-
α表示非目标样本中有多少会被错误地挑选出来。
-
β表示目标样本中有多少会被漏检。
- 第一类错误概率与第二类正确概率之和显然为1(不是第一类就是第二类),这也是α=1−Sp的由来;反之亦然。
- 显然,鉴于二分类器的特性,二者不可能同时取得低值(若分类器认为的P的个体数多,则N的个体数必然变少)。
3.3 ROC曲线
对于二分类任务,无法同时满足正确分类的两个指标同时达到较好的值,因此,引入ROC曲线作为衡量指标:
ROC曲线:
- 以第一类正确率(真阳性,灵敏度, sensitivity,TPR)为y轴;
- 以第一类分类误差(假阳性,假报率,False Alarm,Type−Ⅰ Error,FPR)为x轴;
在理解上,可以这么理解——在x尽量小的情况下,取得较高的y值,是描绘ROC曲线的目标;即第一类分类时误差小、正确率高。
注意到:第一类分类误差实际上就是1−Sp,有的文献则以(1-特异度)为x轴作为介绍,但并不直观。
- 这是标准ROC曲线,若将x轴取为Sp即第二类分类正确率(真阴性,特异度,TNR),则意味着需要在曲线中找到一点,满足一类和二类分类性能同时较高,并反向得出此时的阈值。
关于ROC曲线,可以参考>数据挖掘-分类器的ROC曲线及相关指标(ROC、AUC、ACC)详解<