【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型

简书:https://www.jianshu.com/p/eb9d50312de8

第6章 逻辑斯谛回归与最大熵模型

  1. 逻辑斯谛回归(logistic regression)是经典分类方法。最大熵是概率模型学习的一个准则,推广至分类问题即为最大熵模型(maximum entropy model)。二者都属于对数线性模型
  2. 逻辑斯谛分布(logistic distribution),设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数密度函数γ>0为形状参数,μ为位置参数
    F(x)=P(Xx)=11+e(xμ)/γf(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2
  3. 分布函数属于逻辑斯谛函数,图形为S形曲线(sigmoid curve),以(μ,12)中心对称
    【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型

  4. 二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示;wx+b扩充改造后为wx

    P(Y=1|x)=exp(wx+b)1+exp(wx+b)P(Y=0|x)=11+exp(wx+b)

  5. 几率(odds)是指事件发生的概率和不发生的概率的比值:p1p
  6. 对数几率(log odds) logit(p)=logp1p
  7. 输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型(式1),模型为(式2)
    logP(Y=1|x)1P(Y=1|x)=wxP(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)
  8. 学习时,应用极大似然估计法估计模型参数
    P(Y=1|x)=π(x),  P(Y=0|x)=1π(x)

    似然函数为
    i=1N[π(xi)]yi[1π(xi)]1yi

    对数似然函数为
    L(w)=I=1N[yilogπ(xi)+(1yi)log(1π(xi))]=I=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=I=1N[yi(wxi)log(1+exp(wxi))]

    则为对L(w)求极大值得到w的估计值w^,以对数似然函数为目标函数的最优化问题,通常采用梯度下降法拟牛顿法求解
  9. 推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model)用于多类分类,假设类别为{1,2,…,K},则模型为
    P(Y=k|x)=exp(wkx)1+k=1K1exp(wkx)P(Y=K|x)=11+k=1K1exp(wkx)
  10. 最大熵模型(maximum entropy model)由最大熵原理推导实现
  11. 最大熵原理是概率模型学习的一个准则。认为熵最大的模型是最好的模型。即在满足约束条件下的模型集合中选取熵最大的模型
  12. 当X服从均匀分布时,熵最大
  13. 最大熵模型,假设满足所有约束条件的模型集合为
    C{PP|Ep(fi)=EP~(fi), I=1,2,...,n}

    定义在条件概率分布P(Y|X)上的条件熵为
    H(P)=x,yP~(x)P(y|x)logP(y|x)

    则条件熵H(P)最大的模型称为最大熵模型,对数为自然对数
  14. 最大熵模型学习,约束最优化问题,求解对偶问题,拉格朗日乘子法。。。(略)
  15. 改进的迭代尺度法(improved iterative scaling,IIS)是一种最大熵模型学习的最优化方法
  16. 拟牛顿法(略)