简书:https://www.jianshu.com/p/eb9d50312de8
第6章 逻辑斯谛回归与最大熵模型
-
逻辑斯谛回归
(logistic regression)是经典分类方法。最大熵
是概率模型学习的一个准则,推广至分类问题即为最大熵模型
(maximum entropy model)。二者都属于对数线性模型
-
逻辑斯谛分布
(logistic distribution),设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数,γ>0为形状参数,μ为位置参数
F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
分布函数属于逻辑斯谛函数,图形为S形曲线(sigmoid curve),以(μ,12)中心对称

-
二项逻辑斯谛回归模型
(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示;w⋅x+b扩充改造后为w⋅x
P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=0|x)=11+exp(w⋅x+b)
-
几率
(odds)是指事件发生的概率和不发生的概率的比值:p1−p
-
对数几率
(log odds) logit(p)=logp1−p
- 输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型(式1),模型为(式2)
logP(Y=1|x)1−P(Y=1|x)=w⋅xP(Y=1|x)=exp(w⋅x)1+exp(w⋅x)P(Y=0|x)=11+exp(w⋅x)
-
学习时,应用极大似然估计法估计模型参数
P(Y=1|x)=π(x), P(Y=0|x)=1−π(x)
似然函数为
∏i=1N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为
L(w)=∑I=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑I=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑I=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
则为对L(w)求极大值得到w的估计值w^,以对数似然函数为目标函数的最优化问题,通常采用梯度下降法和拟牛顿法求解
- 推广为
多项逻辑斯谛回归模型
(multi-nominal logistic regression model)用于多类分类,假设类别为{1,2,…,K},则模型为
P(Y=k|x)=exp(wk⋅x)1+∑K−1k=1exp(wk⋅x)P(Y=K|x)=11+∑K−1k=1exp(wk⋅x)
- 最大熵模型(maximum entropy model)由最大熵原理推导实现
-
最大熵原理
是概率模型学习的一个准则。认为熵最大的模型是最好的模型。即在满足约束条件下的模型集合中选取熵最大的模型
- 当X服从均匀分布时,熵最大
-
最大熵模型
,假设满足所有约束条件的模型集合为
C≡{P∈P|Ep(fi)=EP~(fi), I=1,2,...,n}
定义在条件概率分布P(Y|X)上的条件熵为
H(P)=−∑x,yP~(x)P(y|x)logP(y|x)
则条件熵H(P)最大的模型称为最大熵模型,对数为自然对数
- 最大熵模型学习,约束最优化问题,求解对偶问题,拉格朗日乘子法。。。(略)
-
改进的迭代尺度法
(improved iterative scaling,IIS)是一种最大熵模型学习的最优化方法
- 拟牛顿法(略)