机器学习笔记-Logistic回归

0 - 回顾

$l i n e a r r e g r e s s i o n$ 如果使用平方错误的话，我们可以很方便的解析出最好的 $w$ 是什么。即 $w_{b e s t} = X^{†} y$

1 - 逻辑斯蒂回归问题

1.1 - 问题的提出

从一个人的身体数据来判断这个人有没有心脏病，这是一个典型的二元分类问题。 $logistic regression$ 关注的是根据一个人的身体状况来给出可能心脏病发的概率。也就是说我们想要知道的是 $P (+ 1 | x)$ 的值是大小。这样的问题可以称为 $s o f t b i n a r y c l a s s i f i c a t i o n$ ，因为现在我们想要的结果不单是一个样本所属的类别是 $\times$ （是反例）或者是 $◯$ （是正例）？我们关心的是取值为正例 $◯$ 的概率的大小：如果这个值接近于 $1$ ，那么为 $◯$ 的可能性就大；如果这个值接近于 $0$ ，那么为 $◯$ 的可能性就小。

所以 $logistic regression$ 想做的是对给定特征 $x$ 下 $y$ 为正例的概率 $P (y = 1 | x)$ 进行建模。或者说目标函数是 $f (x) = P (y = 1 | x)$ ，我们的任务是找一个最佳的模型( $hyperthesis$ )进行拟合。

1.2 - Soft Binary Classification

我们想要得到的目标函数是 $f (x) = P (+ 1 | x) \subseteq [0, 1]$ ， 即针对一个输入 $x$ , 函数给出是正例的可能性，那么我们理想的希望拿到的数据应该是下面这样的：

(x_{1}, y_{1}^{^{'}} = 0.9 = P (+ 1 | x_{1}))

(x_{2}, y_{2}^{^{'}} = 0.2 = P (+ 1 | x_{2}))

\dots

(x_{N}, y_{N}^{^{'}} = 0.6 = P (+ 1 | x_{N}))

这样我们就可以找一个 $h y p o t h e s i s$ $g$ ，让 $g$ 在 $d a t a$ 上的表现很好(误差很小)，这样 $g$ 可能就和我们想要的那个未知的 $t a r g e t f u n c t i o n f$ 很相近。但是实际我们得到的数据和做 $b i a n r y c l a s s i f i c a t i o n$ 时是一样的。即是下面这样的：

(x_{1}, y_{1}^{^{'}} = 1)

(x_{2}, y_{2}^{^{'}} = 0)

\dots

(x_{N}, y_{N}^{^{'}} = 0)

1.3 - Logistic回归的假设函数

同样的，对每一个样本 $x = (x_{0}, x_{1}, x_{2}, \dots, x_{d})$ 的所有的特征加权求和（每一个样本有 $d$ 个维度的特征， $x_{0}$ 表示的 $b i a s$ 或者是 $t h r e s h o l d$ ，相应的 $w_{0} = 1$ ）:

s = \sum_{i = 0}^{d} w_{i} x_{i}

现在我们想要的并不是这个分数的大小（ $linear regression$ 想要的是这个）。直观上我们想要分数 $s$ 越高，对应患病风险越高；分数 $s$ 越低，对应患病的风险越小。并且我们想要的输出是一个介于 $[0, 1]$ 之间的数(拥有概率的意义)，所以我们使用 $l o g i s t i c$ 函数（或者称为 $θ$ 函数）来将上述的特征加权和的 $(- \infty, + \infty)$ 的输出转为 $[0, 1]$ 。

所以我们要做的就是找到一个 $logistic hyperthesis$ 来拟合 $target function$ 。

logistic函数 $θ$
机器学习笔记-Logistic回归

1.4 - logistic函数:

$l o g i s t i c$ 函数会把分数高的输出为1，分数低的输出为0。

θ (s) = \frac{e^{s}}{1 + e^{s}} = \frac{1}{1 + e^{- s}}

逻辑斯蒂回归从表面上看就是加了一个 $l o g i s t i c$ 函数的线性回归。即将线性运算的结果 $w^{T} x$ 输入到 $θ$ 函数中，使用 $h (x) = \frac{1}{1 + e x p (- w^{T} x)}$ 来计算在给定 $x$ 情况下 $y$ 为正例的概率。

2 - logistic回归的损失函数

2.1 - 三种线性的模型的对比

现在将 $l o g i s t i c r e g r e s s i o n$ 和我们之间接触过的 $l i n e a r r e g r e s s i o n$ 和 $l i n e a r c l a s s i f i c a t i o n$ 做一些对比。三种线性的模型共同点是都计算特征的加权和： $s = w^{T} x$

在线性分类方法中， $P L A$ 通过关注划分错误的点也就是 $e r r_{0 / 1}$ 来进行分割线的调整；在线性回归中，我们使用平方误差 $s q u a r e e r r o r$ 来衡量真实值和预测值之间的差距，通过最小化平方误差可以很容易的得到线性回归的解析解；在逻辑斯蒂回归中如何去定义我们想要最小化的 $E_{i n}$ （答案是利用似然函数）。

2.2 - 交叉熵损失/logistic损失

我们想要建模的函数表示的是样本为正例的可能性，即 $h (x) = P (y = 1 | x)$
根据上面给出的等式可以定义：

P (+ 1 | x) = h (x) ， P (- 1 | x) = 1 - h (x)

这样， $h (x)$ 描述了在给定的特征 $x$ 下该样本属于正例 $(y = 1)$ 的概率； $1 - h (x)$ 则描述了在给定的特征 $x$ 下该样本属于负例的概率。假设某一个数据集 $D = (x_{1}, ◯), (x_{2}, \times), \dots, (x_{N}, \times)$ 。那么这个数据集上的似然函数为：

P (◯ | x_{1}) \times P (\times | x_{2}) \dots P (\times | x_{N})

根据上面的定义可以变为：

h (x_{1}) \times (1 - h (x_{2})) \dots (1 - h (x_{N}))

而

\begin{aligned} (12) & 1 - h (x) \\ (13) & = & 1 - \frac{1}{1 + e^{- w^{T} x}} \\ (14) & = & \frac{1 + e^{- w^{T} x} - 1}{1 + e^{- w^{T} x}} \\ (15) & = & \frac{e^{- w^{T} x}}{1 + e^{- w^{T} x}} \\ (16) & = & \frac{1}{1 + e^{w^{T} x}} \\ (17) & = & h (- x) \end{aligned}

根据以上的性质似然函数的表达式变为：

\begin{aligned} l i k e l i h o o d (h) & = h (x_{1}) \times (1 - h (x_{2})) \times \dots \times (1 - h (x_{N})) \\ = h (x_{1}) \times h (- x_{2}) \times \dots \times h (- x_{N}) \end{aligned}

那么接下来就可以利用极大似然估计法来估计模型参数。所以我们现在的目标是最大化似然函数 $h (x_{1}) \times h (- x_{2}) \times \dots \times h (- x_{N})$ ， 极大化似然函数就是令每一个样本属于其真实标记的概率极大化：
极大化 $x_{1}$ 属于正例的概率 $h (x_{1})$ AND 极大化 $x_{2}$ 属于负例的概率 $h (- x_{2})$ （即极大化 $1 - h (x_{2}) ⟶$ 极小化 $h (x_{2}) ⟶$ 极小化 $x_{2}$ 属于正例的概率） AND $\dots$ AND极小化 $x_{N}$ 属于负例的概率。

将每一个样本的 $y$ 写入上式可以得到似然函数：

l i k e l i h o o d (h) = \prod_{n = 1}^{N} h (y_{n} x_{n})

我们现在的目的就是极大化似然函数：

\underset{h}{m a x} \prod_{n = 1}^{N} h (y_{n} x_{n})

重写一下逻辑斯蒂函数： $θ (x) = \frac{1}{1 + e x p (- x)}$ ，
重写一下我们的逻辑斯蒂回归模型的假设函数： $h (x) = \frac{1}{1 + e x p (- w^{T} x)}$
那么

\begin{matrix} (1) & \prod_{n = 1}^{N} h (y_{n} x_{n}) = \prod_{n = 1}^{N} \frac{1}{1 + e x p (- y_{n} w^{T} x_{n})} = \prod_{n = 1}^{N} θ (y_{n} w^{T} x_{n}) \end{matrix}

我们的目标变为寻找参数 $w$ 使得 $(1)$ 最大

m a x_{w} \prod_{n = 1}^{N} θ (y_{n} w^{T} x_{n})

在机器学习中通常定义损失函数，并最小化，所以取 $l o g$ ，并且变为求最小值

\underset{w}{m a x} l n \prod_{n = 1}^{N} θ (y_{n} w^{T} x_{n}) = m a x_{w} \sum_{n = 1}^{N} l n θ (y_{n} w^{T} x_{n}) = m i n_{w} \sum_{n = 1}^{N} - l n θ (y_{n} w^{T} x_{n})

其中

θ (s) = \frac{1}{1 + e^{- s}}

这样我们就得到了 $logistic regression$ 的损失函数：

\begin{aligned} (18) & m i n_{w} \sum_{n = 1}^{N} - l n θ (y_{n} w^{T} x_{n}) \\ (19) & = m i n_{w} \sum_{n = 1}^{N} - l n (\frac{1}{1 + e x p (- y_{n} w^{T} x_{n})}) \\ (20) & = m i n_{w} \sum_{n = 1}^{N} l n (1 + e x p (- y_{n} w^{T} x_{n})) \\ (21) & = m i n_{w} \sum_{n = 1}^{N} l n (1 + e x p (- y_{n} w^{T} x_{n})) \\ (22) & = m i n_{w} \underset{E_{i n} (w)}{\underset{⏟}{\sum_{n = 1}^{N} e r r (w, x_{n}, y_{n})}} \end{aligned}

这里有一个概念 $e r r (w, x, y) = l n (1 + e x p (- y w x))$ 被定义为 $c r o s s e n t r o p y e r r o r$ 。
到这里我们就把想要极大化似然函数的目的变为要极小化 $E_{i n}$ 。得到了如下的目标，下一小节讲解如何求解使得损失函数最小的 $w$ ：

m i n_{w} \sum_{n = 1}^{N} l n (1 + e x p (- y_{n} w^{T} x_{n}))

3 - Gradient of Logistic Regression Error

3.1 - 求交叉熵损失的梯度

这里给出一个结果，逻辑斯蒂的损失函数 $E_{i n}$ 也是一个凸函数。所以当我们想要最小化 $E_{i n}$ 的时候，就是要找到该函数的“谷底”，而在“谷底”的时候梯度为0。所以最佳的 $w$ 就是使得梯度 $▽ E_{i n} (w)$ 等于 $0$ 的 $w$ ，此时 $E_{i n}$ 最小。

E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} l n (1 + e x p (- y_{n} w^{T} x_{n}))

所以第一步就是求 $E_{i n} (w)$ 的梯度。

首先对 $E_{i n} (w)$ 求导，即计算 $▽ E_{i n} (w)$
$E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} l n (\underset{◻}{\underset{⏟}{1 + e x p (\overset{\circ}{\overset{⏞}{- y_{n} w^{T} x_{n}}})}})$

应用求导的链式法则对 $w_{i}$ 求偏导

\begin{aligned} \frac{\partial E_{i n} (w)}{\partial w_{i}} & = \frac{1}{N} \sum_{n = 1}^{N} (\frac{\partial l n (◻)}{\partial ◻}) (\frac{\partial (1 + e x p (\circ))}{\partial \circ}) (\frac{\partial (- y_{n} w^{T} x_{n})}{\partial (w_{i})}) \\ = \frac{1}{N} \sum_{n = 1}^{N} (\frac{1}{◻}) (e x p (\circ)) (- y_{n} x_{n, i}) \\ = \frac{1}{N} \sum_{n = 1}^{N} (\frac{e x p (\circ)}{1 + e x p (\circ)}) (- y_{n} x_{n, i}) \\ = \frac{1}{N} \sum_{n = 1}^{N} θ (\circ) (- y_{n} x_{n, i}) \end{aligned}

可以得到：

\frac{\partial E_{i n} (w)}{\partial w} = \frac{1}{N} \sum_{n = 1}^{N} θ (- y_{n} w^{T} x_{n}) (- y_{n} x_{n})

求解使得梯度为0的 $w$
$w a n t ▽ E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} θ (- y_{n} w^{T} x_{n}) (- y_{n} x_{n}) = 0$

这里可以看到梯度是一个加权和，其中的权值为 $θ (- y_{n} w^{T} x_{n})$ 。一种情况是，该梯度要为0，那么所有的权值项都要为0。即 $θ (- y_{n} w^{T} x_{n})$ 都要为0。那么此时就要求 $- y_{n} w^{T} x_{n}$ 非常小，即 $y_{n} w^{T} x_{n} ≫ 0$ 。所有的 $y_{n} w^{T} x_{n}$ 都满足远远大于0（ $w^{T} x_{n}$ 和 $y_{n}$ 同号），说明该数据必须是线性可分的。所以想要得到解析解是困难的。并且不同于 $l i n e a r r e g r e s s i o n$ ，在 $l i n e a r r e g r e s s i o n$ 中我们要求的是一个线性的方程式，但是这里是一个非线性的方程式，所以我们不可能可以得到类似与 $l i n e a r r e g r e s s i o n$ 的 $a n a l y t i c s o l u t i o n$ 。

回顾下 $P L A$ 算法在寻求最优的 $w$ 时所使用的方法，不像 $l i n e a r r e g r e s s i o n$ 可以直接得到 $a n a l y t i c s o l u t i o n$ ， $P L A$ 是一步一步的对参数 $w$ 进行修正：每一次看看 $w$ 在哪个数据点犯了错，当发现犯了错误之后就对 $w$ 做修正，直到不再犯错。我们可以把以上的这个过程简化的表示如下：

w_{t + 1} \leftarrow w_{t} + \underset{η}{\underset{⏟}{1}} \underset{v}{\underset{⏟}{[[s i g n (w^{T} x_{n}) \neq y_{n}]] y_{n} x_{n}}}

即如果样本 $(x_{n}, y_{n})$ 犯错，那么就根据该样本对方向进行更新；如果没有犯错，那么就不更新。
其中的 $η$ 是步长， $v$ 是更新的方向。当对步长和方向做不同的规定的时候，就可以得到不同的算法。我们把这样的算法：一步一步的改进，每一次都决定方向，然后走一小步称为 $iterative optimization approach$ 。

Quiz

在梯度中： $▽ E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} θ (- y_{n} w^{T} x_{n}) (- y_{n} x_{n})$ ，哪一个样本点的权重值是最大的。
answer:
$y_{n} w^{T} x_{n}$ 值最小的样本点。
why：
$y_{n} w^{T} x_{n}$ 的值最小，有可能是负值，也就是说此时的 $w$ 在这个样本点上是错的。即，犯错误的点会得到比较大的权重值。

4 - 梯度下降算法

4.1 - 为什么是负梯度方向

$iterative optimization$ 要做的事情就是找一个合适的方向 $v$ ，然后决定一个步长 $η$ ，通过这样的方式来不断的更新 $w$ 。

$f o r t = 0, 1, 2, \dots$

w_{t + 1} = w_{t} + η v

u n t i l s t o p, r e t u r n w a s g

.
其中：

v

是方向(为方便计算规范化为长度为1的向量)，

η

是步长。

$logistics regression$ 的损失函数 $E_{i n} (w)$ 是一个凸函数，像如下的一个山谷的形状，想象当我们把一个球放在山坡的某一个地方，也就是对应于某一个 $w$ ，这时更新的方法就是把球慢慢的滚下去（ $w$ 向谷底的方向移动），当球滚到谷底的时候，我们就找到了梯度为0的点，也就是最佳的 $w$ 所在的点。所以我们现在的目标就是要把球滚下去， $v$ 表示滚下去的方向（长度为1的向量）， $η$ 表示每一步走多远。

想要最快的到达谷底（达到 $E_{i n}$ 的最小值），那么对于任意给定的一个步长 $η > 0$ ，一个比较贪心的想法是我们要选择一个“最陡”的下降方向 $v$ 来做更新（选择一个最陡的方向滚下去）。因为每一步能走的距离是一定的(一步只可以走30公分)，所以现在需要的是选择好的方向 $v$ ：所谓好的方向就是使得沿着这个方向走了一步之后下降了最多：即使得 $E_{i n} (w_{w + 1})$ 最小：

\underset{| | v | | = 1}{m i n} E_{i n} (\underset{w_{t + 1}}{\underset{⏟}{w_{t} + η v}})

这样的好的方向怎么决定呢？
利用泰勒（Taylor expansion：简单理解为一条曲线可以在很小的范围内被一条直线近似的替代）展开，如果 $η$ 是足够小的。那么可以得到：

E_{i n} (w_{t} + η v) \approx E_{i n} (w_{t}) + η v^{T} ▽ E_{i n} (w_{t})

这样的话，原来的问题： $m i n_{| | v | | = 1} E_{i n} (w_{t} + η v)$ 变为如下的线性问题：

m i n_{| | v | | = 1} \underset{k n o w n}{\underset{⏟}{E_{i n} (w_{t})}} + \underset{g i v e n p o s i t i v e}{\underset{⏟}{η}} \underset{u n k n o w n}{\underset{⏟}{v^{T}}} \underset{k n o w n}{\underset{⏟}{▽ E_{i n} (w_{t})}}

所以现在的情况是： $E_{i n} (w_{t})$ , $▽ E_{i n} (w_{t})$ , $η$ 都是已知的。想要知道的是什么样子的 $v$ 可以使得该式子最小。
因为 $E_{i n} (w_{t})$ , $η$ 都是已知的，所以我们的最小化目标可以变为下式：

m i n_{| | v | | = 1} v^{T} ▽ E_{i n} (w_{t})

要使得该式子最小的最 $o p t i m a l$ 的方向 $v$ 就是和 $▽ E_{i n} (w_{t})$ 的方向相反那个向量（两个向量正好方向相反的时候內积会最小），又我们要求 $v$ 是单位向量，所以可以得到最好的更新权重的方向是：

v = - \frac{▽ E_{i n} (w_{t})}{| | ▽ E_{i n} (w_{t}) | |}

即，梯度的负方向！

4.2 - 梯度下降算法

得到了最好的方向，我们就可以对 $w$ 来进行更新（就知道了球应该会怎么滚），对于一个小的 $η$ ，权重的更新规则如下：

w_{t + 1} = w_{t} - η \frac{▽ E_{i n} (w_{t})}{| | ▽ E_{i n} (w_{t}) | |}

即，往梯度的反方向走一小步。这个方法就是 $g r a d i e n t d e s c e n t$ ，只要能算出梯度，这个问题就可以解决。

4.3 - 如何选择步长

已经解决了更新的方向的问题，现在我们考虑步长的问题。

对于 $η$ 的设置，太小或者太大都不合适。一个不错的选择是步长最好是正比与梯度。梯度大的时候，步长大一点；梯度小的时候，步长小一点。也就是说比较好的步长应该是这样的 $\hat{η} = λ | | ▽ E_{i n} (w_{t}) | |$ .这样，原来的更新规则：

w_{t + 1} = w_{t} - η \frac{▽ E_{i n} (w_{t})}{| | ▽ E_{i n} (w_{t}) | |}

得到

g r a d i e n t d e s c e n t

最终的更新规则：

w_{t + 1} = w_{t} - η ▽ E_{i n} (w_{t})

4.4 - 逻辑斯蒂回归算法

现在我们得到了完整的 $l o g i s t i c r e g r e s s i o n$ 算法的流程如下：

初始化 $w_{0}$
$F o r t = 0, 1, \dots$

计算梯度
$▽ E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} θ (- y_{n} w^{T} x_{n}) (- y_{n} x_{n})$
梯度下降更新权重
$w_{t + 1} = w_{t} - η ▽ E_{i n} (w_{t})$

$\dots$ 直到 $▽ E_{i n} (w) \approx 0$ 或者已经更新了足够多的步数
返回最新的 $w_{t + 1}$ 作为 $g$ 。

在每一个迭代步中，花费最大是计算梯度：所有的样本的 $θ$ 函数值和样本值的乘积和。

5 - 总结

这篇介绍了 $logistic regression$ ，从我们想要直接计算 $P (+ 1 | x)$ 的值这个问题出发，我们使用 $l o g i s t i c f u n c t i o n$ 作为假设函数，并且定义了 $c r o s s$ - $e n t r o p y e r r o r$ 。我们想要最小化这个 $e r r o r$ ，那么就要计算这个 $e r r o r$ 的梯度，得到的梯度是 $θ$ 函数和资料的乘积的一个求和平均。但是我们没有办法直接得到梯度为 $0$ 时候 $w$ 的解，所以就引出了 $g r a d i e n t d e s c e n t$ 这样的 $i t e r a t i v e o p t i m i z a t i o n a p p r o a c h$ 可以帮助我们找到最佳的权重值 $w$ ，从而构造模型。