逻辑回归

第一步先选择函数集

步骤一：函数集

接上一篇，我们知道，给定一个x,它属于类别 $C_1$ 的概率为 $P_{w,b}(C_1|x)$ ,
如果 $P_{w,b}(C_1|x)\geq0.5$ 则属于 $C_1$ ；否则属于 $C_2$

最后我们得到
$P_{w,b}(C_1|x) = \sigma(z),\quad \sigma(z)=\frac{1}{1+exp(-z)}$

$z = w \cdot x + b = \sum_i w_ix_i + b$
所以我们的函数集是 $f_{w,b}(x) = P_{w,b}(C_1|x)$ ，包含所有不同的 $w$ 和 $b$ 。

图形化表示如下：

机器学习入门之逻辑回归

这个就是逻辑回归，我们与线性回归做一个比较。

机器学习入门之逻辑回归

因为Sigmoid函数的取值范围是0到1，因此逻辑回归的输出也是0到1；而线性回归的输出可以是任何值。

接下来判断函数的好坏

步骤2：函数有多好

机器学习入门之逻辑回归

假设我们有N个训练数据，每个训练数据都标明了属于哪个类别( $C_1$ 或 $C_2$ )

并且假设这些数据是从 $f_{w,b}(x) = P_{w,b}(C_1|x)$ 所产生的。

那么给定一组 $w$ 和 $b$ ，那如何计算某一组 $w$ 和 $b$ 产生这些数据的概率：

$L(w,b) = f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\cdots f_{w,b}(x^N)$

其中 $x^3$ 是属于 $C_2$ ，因此它的计算方法有点不同。

最好的 $w$ 和 $b$ 会产生产生最大的 $L(w,b)$

$w^*,b^* = arg\,\max_{w,b}L(w,b)$
做个数学上的转换，将上式右边取对数，并加上负号，变成计算最小的：

$w^*,b^* = arg\,\min_{w,b}-\ln L(w,b)$

取对数的好处是使得相乘变成相加：

$-\ln L(w,b) = \\ -\ln f_{w,b}(x^1)\\ -\ln f_{w,b}(x^2)\\ -\ln (1-f_{w,b}(x^3)) \\ \cdots$

但是这个式子不好写个SUM的形式,因此需要做符号转换
机器学习入门之逻辑回归

如果 $\hat{y}^n=1$ 则说明它属于类别 $C_1$ ；若等于0，说明属于类别 $C_2$ ，那么就有

$-\ln f_{w,b}(x^1) \Longrightarrow -[\hat{y}^1 \ln f(x^1) + (1 - \hat{y}^1) \ln (1-f(x^1))]\\ -\ln f_{w,b}(x^2) \Longrightarrow -[\hat{y}^2 \ln f(x^2) + (1 - \hat{y}^2) \ln (1-f(x^2))]\\ -\ln (1-f_{w,b}(x^3)) \Longrightarrow -[\hat{y}^3 \ln f(x^3) + (1 - \hat{y}^3) \ln (1-f(x^3))]\\ \cdots$
这样，就能得到一个函数：

因为 $\hat{y}^n$ 取0或1，因此 $\hat{y}^n \ln f(x^n) + (1 - \hat{y}^n) \ln (1-f(x^n))$ 中+号左右两边总有一个式子等于0。

$\begin{aligned} L(w,b) &= f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\cdots f_{w,b}(x^N) \\ -\ln L(w,b) &= -(\ln f_{w,b}(x^1) + \ln f_{w,b}(x^2) + ln(1-\ln f_{w,b}(x^3)) \cdots \\ &= \sum_n -[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))] \\ \end{aligned}$

$-[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))]$ 其实就是两个伯努利分布的交叉熵,交叉熵主要用于衡量两个分布有多接近，如果一模一样的话，那么就是0。

机器学习入门之逻辑回归

所以在逻辑回归中，定义一个函数的好坏就通过两个类别分布的交叉熵之和：

机器学习入门之逻辑回归

我们需要最小化这个交叉熵，也就是希望函数的输出和目标函数的输出越接近越好。

步骤3：找到最好的函数

$-\ln L(w,b) = \sum_n -[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))] \\$
找到最好的函数需要找到一组 $w$ 和 $b$ 使得上式的结果最小。

计算该式对w中某个特征的微分。

$\frac{-\ln L(w,b)}{\partial w_i} = \sum_n -[\hat{y}^n \frac{\partial \ln f_{w,b}(x^n)}{\partial w_i} + (1 - \hat{y}^n) \frac{ \partial \ln (1-f_{w,b}(x^n))}{\partial w_i}]$

其中 $f_{w,b}(x) = \sigma(z) =\frac{1}{1 + exp(-z)}$ , $z = w \cdot x + b = \sum_i w_ix_i + b$

一项一项来求，左项可以写成

$\frac{\partial \ln f_{w,b}(x)}{\partial w_i} = \frac{\partial \ln f_{w,b}(x)}{\partial z} \frac{\partial z}{\partial w_i}$

由 $z$ 的表达式知 $\frac{\partial z}{\partial w_i} = x_i$

$\frac{\partial \ln f_{w,b}(x)}{\partial z} = \frac{\partial \ln \sigma(z)}{\partial z} = \frac{1}{\sigma(z)} \frac{\partial \sigma(z)}{\partial z} = \frac{1}{\sigma(z)} \sigma(z)(1-\sigma(z)) = (1 - \sigma(z))$

其中 $\frac{\partial \sigma(z)}{\partial z} = \sigma(z)(1-\sigma(z))$ 证明如下：

$\begin{aligned} \sigma'(z) &= (\frac{1}{1+e^{-z}})' \\ &= \frac{0 - (-e^{-z})}{(1+e^{-z})^{2}} \\ &= \frac{1+e^{-z}-1}{(1+e^{-z})^{2}} \\ &= \frac{1}{(1+e^{-z})}(1-\frac{1}{(1+e^{-z})}) \\ &= \sigma(z)(1-\sigma(z))\\ \end{aligned}$

而右项

$\frac{ \partial \ln (1-f_{w,b}(x))}{\partial w_i} = \frac{ \partial \ln (1-f_{w,b}(x))}{\partial \sigma(z)} \frac{\partial z}{\partial w_i} \quad \frac{\partial z}{\partial w_i} = x_i$

也就是

$\frac{ \partial \ln (1-\sigma(z))}{\partial \sigma(z)} = - \frac{1}{1- \sigma(z)} \frac{\partial z}{\sigma(z)} = - \frac{1}{1- \sigma(z)} \sigma(z) (1-\sigma(z)) = -\sigma(z)$

所以

$\begin{aligned} \frac{-\ln L(w,b)}{\partial w_i} &= \sum_n - [\hat{y}^n \frac{\partial \ln f_{w,b}(x^n)}{\partial w_i} + (1 - \hat{y}^n) \frac{ \partial \ln (1-f_{w,b}(x^n))}{\partial w_i}] \\ &= \sum_n -[\hat{y}^n(1-f_{w,b}(x^n))x_i^n - (1 - \hat{y}^n)f_{w,b}(x^n)x_i^n] \\ &= \sum_n -[\hat{y}^n - \bcancel{\hat{y}^n f_{w,b}(x^n)} - f_{w,b}(x^n) + \bcancel{\hat{y}^nf_{w,b}(x^n)}]x_i^n \\ &= \sum_n -(\hat{y}^n - f_{w,b}(x^n))x_i^n \end{aligned}$

得到的式子很简单。如果用梯度下降算法来更新它的话，可以写成：

$w_i \leftarrow w_i - \eta \sum_n -(\hat{y}^n - f_{w,b}(x^n))x_i^n$

$\hat{y}^n - f_{w,b}(x^n)$ 表示理想的目标与模型的输出的差距，如果差距越大，
那么更新的量应该要越大。

接下来比较下逻辑回归和线性回归更新时的式子：

机器学习入门之逻辑回归

会发现表达式是一模一样的。唯一不同的是逻辑回归的 $\hat{y}^n$ 取0或1，f是0~1之间的数值；而线性回归的 $\hat{y}^n$ 是任意实数，输出也可以是任何实数。

生成模型VS判别模型

我们上面讨论的逻辑回归是判别模型（Discriminative），用高斯分布描述的概率分布模型是生成模型(Generative)。

它们的函数集是一样的 $P(C_1|x) = \sigma(w \cdot x + b)$

用逻辑回归能直接找出 $w$ 和 $b$ ；如果是生成模型，那么需要找到 $\mu^1,\mu^2,\Sigma^{-1}$ ，进而求出 $w^T$ 和 $b$

根据同一组训练数据，同样的函数集，上面两种模型会得到不同的函数。

机器学习入门之逻辑回归

如果用上所有的特征，判别模型的准确率更好。

假设有一个非常简单的二元分类问题，每个数据都有两个特征。

机器学习入门之逻辑回归

Class1我们只有一份数据，它的两个特征都是1；Class2有12份数据，如上。

如果给一份测试数据，它的两个特征都是1：

机器学习入门之逻辑回归

那么它属于哪个类别的概率大呢？

我们先来看下生成模型，选用朴素贝叶斯模型，朴素说的是每个特征都是独立的。
$P(x|C_i) = P(x_1|C_i)P(x_2|C_i)$

$P(C_1) = \frac{1}{13}$ 给定类别 $C_1$ ，第一个特征是1的几率 $P(x_1 = 1|C_1) = 1$ ,第二个特征是1的几率 $P(x_2 = 1|C_1) = 1$ ，也是1。

$P(C_2) = \frac{12}{13}$ ，给定类别 $C_2$ ，第一个特征是1的几率 $P(x_1 = 1|C_1) = \frac{1}{3}$ ,第二个特征是1的几率 $P(x_2 = 1|C_1) = \frac{1}{3}$

接下来计算这个测试数据属于类别1的几率

$P(C_1|x) = \frac{p(x|C_1)P(C_1)}{p(x|C_1)P(C_1) + p(x|C_2)P(C_2)} \\$

机器学习入门之逻辑回归

计算得 $P(C_1|x) < 0.5$ ，因此判断它属于类别2；而用逻辑回归判断它属于类别1。

机器学习入门之逻辑回归

逻辑回归

步骤一：函数集

步骤2： 函数有多好

步骤3：找到最好的函数

生成模型VS判别模型

相关推荐

步骤2：函数有多好