LR介绍

Logistic Regression 是一种非线性的回归模型，同时也可以使用逻辑回归模型来作分类任务。

Logistic Regression回归模型使用的Sigmoid函数作为假设模型。

h_{θ} (x) = \frac{1}{1 + e^{- x}}

其中

x = \sum_{i}^{n} θ_{i} f_{i}, i = 1, 2 . . . n

n

表示

x

这个样本共有

n

维的特征，

f_{i}

表示

x

这个样本的第

i

个特征，

θ_{i}

表示

x

这个样本第

i

个特征的权重。而逻辑回归模型的训练过程就是学习这个

θ

，训练完成后的逻辑回归模型就可以用来给样本分类。
Sigmoid函数是长成这样的。
机器学习-逻辑回归模型公式推导

思考题1：为什么逻辑回归的假设模型使用的是Sigmoid函数？

公式推导：

由于逻辑回归服从伯努利分布。所以对于二分类问题来说。
$h_{θ} (x)$ 表示类别为1的情况。那么类别为0的情况就是 $1 - h_{θ} (x)$
那么输入 $x$ 判断类别为1的概率为 $P (y = 1 | x; θ) = h_{θ} (x)$ ,判断类别为0的概率为 $P (y = 0 | x; θ) = 1 - h_{θ} (x)$
综合在一起就是

$ P (y | x; θ) = h_{θ} (x)^{y} + (1 - h_{θ} (x))^{1 - y}

接下来为了能够使用梯度下降的方法来training

θ

这个值，所以需要设置损失函数。
通常分类问题的损失函数是误差平方和(MSE)但是，我们会发现这时候的代价函数是非凸的，也就是函数图像中会出现许多的局部最小值，导致梯度下降法极其容易得到局部最小值。
如下图所示：
机器学习-逻辑回归模型公式推导

为了能够得到一个凸函数，所以需要修改loss function来获得一个优化的凸函数。
Loss function

L o s s (h_{θ} (x), y_{i}) = l o g (P (y_{i} | x; θ)) = - [l o g (h_{θ} (x)) \cdot y_{i} + l o g (1 - h_{θ} (x)) \cdot (1 - y_{i})]

而函数整体的损失就是(共有m个样本参与训练)

J (θ) = - \frac{1}{m} \sum_{i}^{m} [l o g (h_{θ} (x)) \cdot y_{i} + l o g (1 - h_{θ} (x)) \cdot (1 - y_{i})]

LR的梯度下降公式推导

由于新设置的Loss function是非凸的，所以我们可以使用梯度下降发的方法来求出当Loss funciton最小时的 $θ$ 向量。梯度下降法的迭代公式是

θ_{j} = θ_{j} - α \frac{\partial}{\partial θ} J (θ)

其中

α

是learning rate学习率。

接下来是公式推导：

$- \frac{1}{m} \frac{\partial}{\partial θ} [l o g (h) \cdot y + l o g (1 - h) \cdot (1 - y)]$
$= - \frac{1}{m} [\frac{1}{h} \cdot h^{'} \cdot y + \frac{1}{(1 - h)} \cdot (- h^{'}) \cdot (1 - y)]$
由于 $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}$ ,所以 $h^{'} = - h^{2} \cdot e^{- θ^{T} X} \cdot (- X), 将 h^{'} 代入$
$= - \frac{1}{m} [\frac{1}{h} \cdot (h^{2} \cdot e^{- θ^{T} X} \cdot X) \cdot y + \frac{1}{(1 - h)} \cdot (h^{2} \cdot e^{- θ^{T} X} \cdot (- X)) \cdot (1 - y)]$
又由于 $e^{- θ^{T} X} = \frac{1}{h} - 1 = \frac{1 - h}{h}$ ，代入可得
$= - \frac{1}{m} [\cdot (h \cdot \frac{1 - h}{h} \cdot X) \cdot y + \frac{1}{(1 - h)} \cdot (h^{2} \cdot \frac{1 - h}{h} \cdot (- X)) \cdot (1 - y)]$
$= - \frac{1}{m} [\frac{1}{h} \cdot (1 - h) \cdot X \cdot y - h \cdot X \cdot (1 - y)]$
$= - \frac{1}{m} (y - h) X$
$= \frac{1}{m} (h - y) X$
$= \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

所以更新 $θ$ 的公式变化为下面这种情况

θ_{j} = θ_{j} - α \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}

这样就完成了相关的推导。

思考题解答

1.这里可以去查看最大熵模型。逻辑回归模型是最大熵模型的一个特例，并且在给定条件下求熵最大的分布就是Sigmoid函数。
同时伯努利的指数族形式就是 $\frac{1}{1 + e^{- x}}$

参考

Stanford机器学习课程笔记——LR的公式推导和过拟合问题解决方案
 为什么 LR 模型要使用 sigmoid 函数，背后的数学原理是什么？-知乎

机器学习-逻辑回归模型公式推导

LR介绍

公式推导：

LR的梯度下降公式推导

思考题解答

参考

相关推荐