注:本篇文章求解思路、过程均为原创,本文出现的文字、公式等均为对照原计算手稿逐字手敲,绝无复制粘贴学术不端之举,转载请注明URL以及出处。
1.什么是逻辑回归?
Logistic−Regression是一种广义线性回归,与多重线性回归分析有很多相同之处。如它们的模型形式基本上相同,都具有 w∗x+b。而多重线性回归直接将 w∗x+b 作为因变量,因此他们的因变量不同。
- 下文中所出现的 w∗x 均为内积形式。
2.逻辑回归损失函数推导及其模型的推导
- 下面我们就进行逻辑回归模型以及其损失函数的推导,全程简单粗暴,逐层递进,详略得当,干货满满!
逻辑回归损失函数的推导
Part 1:问题分析
LR 为什么用Sigmoid 函数?
假设有一个二分类问题,输出 y{ 0,1 },而线性模型的预测值 y 为实数值,即找到一个阶跃函数将实数 z 映射为 { 0,1 },这样就能很好地处理分类问题。
由于Sigmoid 函数具有如下很好的性质:
1)可将值域上的结果映射到(0,1)之间;
2)可将0.5作为决策边界;
3)数学特性好,容易求导.
所以利用了Sigmoid 函数:
g(z) = 1+e−z1

因为g(z)最后输出的是样本类别的概率值,所以将阈值设为0.5,g(z)>0.5时,概率值为 1,g(z)<0.5时,概率值为 0.
Part 2:构造预测函数
为了使模型分类更准确,需要找到一个最优线性函数模型,并对每个 x 找到最优参数,进而使这个最优线性函数模型的参数达到最优。即:
wT∗x=w0x+w1x1+...+wnxn=∑i=1Nwixi,
w∈Rn,称为权值向量,
N为特征个数.
将其与Sigmoid 函数结合构造Logistic 回归预测函数:
π(x)=g(wTz)=1+e−wT∗x1
- 注意:若最优线性函数模型为 w∗x+b,b∈R 为偏置,可将权值向量与输入向量加以扩充为w=(w(1),w(2),...,w(n),b)T, x=(x(1),x(2),...,x(n),b)T, 即仍记作 wT∗x.
Part 3:构造损失函数
若模仿线性回归中的平方误差损失函数,会得到一个非凸函数,使损失函数有许多局部最优解,得不到全局最优解。

对于二分类问题函数 π(x) ,最大化样本概率就可以得到更优分类模型,所以有:
P(Y=1∣x)=π(x),
1−P(Y=0∣x)=π(x).
整合为似然函数为:
L(w)=∏i=1NP(Y∣x;w)=∏i=1N[π(xi)]yi[1−π(xi)]1−yi
逻辑回归模型的推导
Part 1:模型参数的估计
为什么要取对数?
应用极大似然法估计模型参数,即求解 argmaxL(w),样本集中众多样本,要求其连乘概率为(0,1)间的数,连乘越来越小,所以利用对数变换将其变为连加,不会超出计算精度,不会溢出。即:
L(w)=∏i=1N[π(xi)]yi[1−π(xi)]1−yi
的对数似然函数为:
L(w)=∑i=1N[yiπ(xi)+(1−yi)log(1−π(xi))]
=∑i=1N[yilogπ(xi)+log(1−π(xi))−yilog(1−π(xi))]
=∑i=1N[yilog1−π(xi)π(xi)+log(1−π(xi))
此时引入事件概率 P,那么该事件的几率是 1−PP,该事件的对数几率即logist函数为:
logist(P)=log1−PP
此时引入预测函数 π(x)=1+e−wT∗x1=P(Y=1∣x)
令 z=wT∗x,
得到:
P(Y=1∣x)=1+e−z1=(1+e−z)∗ez1∗ez=ez+1ez
1−P(Y=1∣x)=ez+1ez+1−ez+1ez=ez+11
所以求得其 logist函数为:
log1−P(Y=1∣x)P(Y=1∣x)=logez=z
代入对数似然函数:
L(w)=∑i=1N[yiz+log(1−π(xi))]
=∑i=1N[yiz+log(1+ez)−1]
=∑i=1N[yi(wT∗x)−log(1+exp(wT∗x))]
对 L(w) 求极大值,得到 w 的估计值,这样,问题就变成了以对数似然函数为目标函数的最优化问题。
Part 2:Logistic回归学习的算法
Logistic回归学习的算法通常为梯度下降法和拟牛顿法,此处采用梯度下降法求解模型参数:
对 w 求导:
Lw′(w,xi,yi)=∑i=1N[xiyi−1+exp(wT∗xi)xiexp(wT∗xi)]
根据梯度下降算法:
1)取初始值 w0∈Rn,置 k=0.
2)计算 L(wk).
3)计算梯度 pk=∇L(wk),当∣∣pk∣∣<ε 时,停止迭代,令 w∗=wk ,w∗为所求参数 w的解。
否则 ,求 λk 使L(wk+λkpk)=maxλ≥0L(wk+λpk).
4)置wk+1=w(k)+λkpk,计算L(wk+1),
当∣∣L(wk+1)−L(wk)∣∣<ε 或 ∣∣wk+1−wk∣∣<ε时,停止迭代,令 w∗=wk+wk+1,w∗为所求参数 w的解。
5)否则,置 k=k+1,转第三步。
Part 3:最终模型
最终,学到的 logistic 回归模型为:
P(Y=1∣x)=1+exp(w∗∗x)exp(w∗∗x)
P(Y=0∣x)=1+exp(w∗∗x)1
参考资料:《统计学习方法第二版》李航