Logistic Regression

简介

对数几率回归，也称为逻辑回归，虽然名为“回归”，但实际上是分类学习方法。

考虑二分类任务，输出类别标记为 $\{0, 1\}$ ，要将线性回归模型产生的预测值 $z$ 转换为0/1值，可以使用单位越阶函数，即

$y = \begin{cases} 0 & \text{z<0} \\ 0.5& \text{z=0} \\ 1& \text{z>0} \end{cases}$

但是单位越阶函数并非连续可微，因此不能作为联系函数。于是改用对数几率函数，也称sigmoid函数，即

$y=\frac 1 {1+e^{-z}}$

以sigmoid函数为联系函数带入到线性模型中，变化为

$ln\frac y{1-y}=w^Tx+b$

在这个模型中，将 $y$ 视作样本分类为正的可能，则 $1-y$ 为反例的可能，两者的比值即为**“几率”**，再取对数即为所谓对数几率。

故可将上式重写为

$ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b$

同时有 $p(y=1|x)=\frac {e^{-(w^tx+b)}}{1+e^{-(w^tx+b)}}$ 、 $p(y=0|x)=\frac {1}{1+e^{-(w^tx+b)}}$ 。

为了回归学习出参数 $w$ 和 $b$ ，需要选择合适的损失函数，先直接给出对数几率回归中使用的损失函数，即对数损失：

$L=-[yln\hat y+(1-y)ln(1-\hat y)]$

对数损失是从最大似然函数取对数导出的，最大似然函数即

$l(\theta)=\prod_{i=1}^mp(y=1|x_i)^{y_i}p(y=0|x_i)^{1-y_i}$

当类别y取不同值的时候，此函数总是只有一项发挥作用，可以理解为分段函数：

$L=\begin {cases}-ln(\hat y)& \text{y=1} \\ -ln(1-\hat y) &\text{y=0} \end {cases}$

而由于 $\hat y$ 和 $1-\hat y$ 的值均在0-1之间，故取对数后加负号，使结果为正。此时 $\hat y$ 越接近1，损失函数越小。

学习任务为： $(w^*, b^*)=argmin_{w,b}\ L$ ，用链式法则分别求 $L$ 对 $w$ 和 $b$ 的导数，即

$\frac{\partial L}{\partial w}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial z}\frac{\partial z}{\partial w}=(\hat y-y)*x$

$\frac{\partial L}{\partial b}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial z}\frac{\partial z}{\partial b}=\hat y-y$

先上图，从左到右分别为欠拟合、适当拟合、过拟合。

对数几率回归——Logistics Regression原理

可以使用正则化方法，对于容易过拟合的特征进行惩罚，即在损失函数中额外加上该特征的惩罚项：

$L(w;x,y)=L(w;x,y)+\alpha \Omega(w)$

reference：