机器学习笔记-线性回归

1 - 线性回归问题

1.1 - 问题的提出

在银行发放信用卡时，我们希望算法可以给出针对用户信用卡额度的预测，即当我们收集到用户的一些信息（如下），那么我们如何决定发放给该用户的信用额度呢？

key	value
age	23
annual salary	NTD 1,000,000
year in job	0.5 year
current debt	200,000

1.2 - 线性回归

这个问题要求我们的模型可以给出实数范围内的预测结果。同样的从最简单的假设出发，对于每一个用户， $x = (x_{0}, x_{1}, x_{2}, \dots, x_{d})$ ，利用特征的加权和估计额度。我们希望在已经观测到的资料上用户特征的加权和可以很好的拟合用户的额度。

y = \sum_{i = 0}^{d} w_{i} x_{i}

这样得到了线性回归的假设函数为: $h (x) = w^{T} x$

和之前用于分类的一点点不同在于加权和不需要再进行一个sign运算来决定是+1还是-1。加权的结果直接就是我们给出的预测值。

1.3 - 线性假设的直观认识

如果 $x$ 是一维的，就是要找出一条直线来最好的拟合平面上的点；如果 $x$ 是二维的，就是要找三维空间的一个平面来最好的拟合这些空间中的数据点。所谓最好的拟合，就是要使得图中的所有的红线（误差 $r e s i d u a l s$ ,拟合之后还时存在的差异）的总长最小。

$linear regression： find lines/hyperplanes with small residuals.$

1.4 - 损失函数

为了达到最好的拟合效果，我们就需要给定一个衡量residuals大小的方法，最常用的衡量错误的方法是平方误差： $e r r (\hat{y}, y) = (\hat{y} - y)^{2}$

\begin{matrix} (1) & E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} (h (x_{n}) - y_{n})^{2} \end{matrix}

损失函数越小，就代表模型拟合的越好(暂时认为这么说是对的)。 现在我们的目标就是要最小化 $E_{i n} (w)$

2 - 线性回归算法

通过上一小节的分析，我们现在的目标就是要把 $E_{i n}$ 做的越小越好，也就是要求一个好的 $w$ 来使得 $E_{i n}$ 变小。
为了计算和表示的方便，我们将 $E_{i n} (w)$ 的计算公式 $(1)$ 表示为向量的形式。

\begin{aligned} E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} (w^{T} x_{n} - y_{n})^{2} = \frac{1}{N} \sum_{n = 1}^{N} (x_{n}^{T} w - y_{n})^{2} \\ = \frac{1}{N} {‖ \begin{matrix} x_{1}^{T} w - y_{1} \\ x_{2}^{T} w - y_{2} \\ \dots \\ x_{N}^{T} w - y_{N} \end{matrix} ‖}^{2} \\ = \frac{1}{N} {‖ \begin{matrix} [\begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ \dots \\ x_{N}^{T} \end{matrix}] w - [\begin{matrix} y_{1} \\ y_{2} \\ \dots \\ y_{N} \end{matrix}] \end{matrix} ‖}^{2} \\ = \frac{1}{N} | | \underset{N \times (d + 1)}{\underset{⏟}{X}} \underset{(d + 1) \times 1}{\underset{⏟}{w}} - \underset{N \times 1}{\underset{⏟}{y}} | |^{2} \end{aligned}

现在我们的目标变为求最优的 $w$ 最小化 $E_{i n}$ ：

\underset{w}{m i n} E_{i n} (w) = \frac{1}{N} | | X w - y | |^{2}

关于这个 $E_{i n} (w)$ ：

$E_{i n} (w)$ : 连续，可微分，凸函数（函数的曲线像山谷一样）。
凸函数：在函数的最低点（谷底，函数取最小值的地方）的梯度（沿各个变量的方向的导数都）为 $0$ 。

如果要求得 $E_{i n}$ 的最小值，就要满足 $▽ E_{i n} (w) = 0$ ，这是一个我们能求得最小值的方法。

$task：find w_{L I N} such that ▽ E_{i n} (w) = 0$

也就是说能使得 $E_{i n} (w)$ 的梯度为 $0$ 的 $w$ 就是我们模型的最佳的参数 $w_{L I N}$ (在这个点上 $E_{i n}$ 沿各个方向上的偏微分都是0)。

\begin{matrix} (1) & ▽ E_{i n} (w) = [\begin{matrix} \frac{α E_{i n}}{α w_{0}} (w) \\ \frac{α E_{i n}}{α w_{1}} (w) \\ \dots \\ \frac{α E_{i n}}{α w_{d}} (w) \end{matrix}] = [\begin{matrix} 0 \\ 0 \\ \dots \\ 0 \end{matrix}] \end{matrix}

所以现在的目标是要求解一个 $w_{l i n}$ 使得 $▽ E_{i n} (w_{l i n}) = 0$

2.1 - 求梯度

要找使得 $E_{i n}$ 梯度为 $0$ 的 $w_{l i n}$ ，那么第一步我们要考虑的是如何求梯度。

E_{i n} (w) = \frac{1}{N} | | X w - y | |^{2} = \frac{1}{N} (w^{T} \underset{a}{\underset{⏟}{X^{T} X}} w - 2 w^{T} \underset{b}{\underset{⏟}{X^{T} y}} + \underset{c}{\underset{⏟}{y^{T} y}})

如何求 $▽ E_{i n} (w)$ ：

当 $w$ 是一维的时候：
$E_{i n} (w) = \frac{1}{N} (a w^{2} - 2 b w + c)$ $⟶$ $▽ E_{i n} (w) = \frac{1}{N} (2 a w - 2 b)$
当 $w$ 是向量的时候：
$E_{i n} (w) = \frac{1}{N} (w^{T} A w - 2 w^{T} b + c)$ $⟶$ $▽ E_{i n} (w) = \frac{1}{N} (2 A w - 2 b)$

这样我们就得到了线性回归的损失函数 $E_{i n}$ 的梯度是：

▽ E_{i n} (w) = \frac{2}{N} (X^{T} X w - X^{T} y)

2.2 - 得到最佳的权重

现在我们已经求出了梯度的表达式，接下来要做的就是求得使得梯度为0的 $w_{l i n}$ 。

task: find $w_{l i n}$ such that $\frac{2}{N} (X^{T} X w - X^{T} y) = ▽ E_{i n} (w) = 0$

\begin{aligned} ▽ E_{i n} (w) = 0 \\ ⟶ \frac{2}{N} (X^{T} X w - X^{T} y) = 0 \\ ⟶ w_{l i n} = \underset{X^{†}}{\underset{⏟}{(X^{T} X)^{- 1} X^{T}}} y \\ ⟶ w_{l i n} = X^{†} y \end{aligned}

其中

X^{†} 为 X 的 p s e u d o

i n v e r s e

2.3 - 线性回归模型

从数据 $D$ 中，构造数据矩阵 $X$ 和输出向量 $y$
$\begin{matrix} (32) & X_{N \times (d + 1)} = [\begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ \dots \\ x_{N}^{T} \end{matrix}] y = [\begin{matrix} y_{1} \\ y_{2} \\ \dots \\ y_{N} \end{matrix}] \end{matrix}$

计算伪逆 $X^{†} ： (d + 1) \times N$

返回权重 $w_{l i n} = X^{†} y$

$h = X X^{†} y$

所以只要有一个很好的可以求解伪逆的算法包，我们就可以很容易的求得线性回归模型的最佳参数，从而得到一个线性回归模型 $\hat{y} = X X^{†} y$ 。，我们把这样求得的线性模型的参数称为 $analytic solution$ 或者是 $closed-form solution$ 。

3 - 线性回归用于二分类

3.1 - 线性回归vs线性分类

我们了解了linear regression，现在来看看线性回归和之前我们介绍的线性分类有什么不同。

线性分类
$\begin{aligned} (57) & y & = {+ 1, - 1} \\ (58) & h (x) & = s i g n (w^{T} x) \\ (59) & e r r (y, \hat{y}) & = | [y \neq \hat{y}] | \end{aligned}$
想要最小化 $e r r (y, \hat{y})$ （划分错误的点最少）是一个 $N P$ 难问题。
线性回归
$\begin{aligned} (60) & y & \in R \\ (61) & h (x) & = w^{T} x \\ (62) & e r r (y, \hat{y}) & = (y - \hat{y})^{2} \end{aligned}$
有解析解，非常容易求解。

由于线性回归有这么容易求解的方法，而 ${+ 1, - 1} \in R$ ，那么我们是不是可以使用线性回归来做分类呢？说不定线性回归算法通过一番计算，得到的线性回归模型可以在样本的label为1的时候，返回一个大于0的数；在样本的label为-1的时候，返回一个小于0的数。
我们只需要在意识上将用于标识正例和负例的 $+ 1$ 和 $- 1$ 当做是我们想要拟合的数值就好了。怎么从数学的角度证明这个想法的可行性呢？

3.2 - 两种损失函数的关系

$l i n e a r r e g r e s s i o n$ 和 $l i n e a r c l a s s i f i c a t i o n$ 最大的差别就是他们的 $e r r o r f u n c t i o n$

$0/1 error function$
$e r r_{0 / 1} (y, \hat{y}) = | [s i g n (w^{T} x) \neq y] |$
$square error function$
$e r r_{s q r} (y, \hat{y}) = (w^{T} x - y)^{2}$

左图是 $y = 1$ 的情况下 $e r r$ 作为 $w^{T} x$ 的函数;右图是 $y = - 1$ 的情况下 $e r r$ 作为 $w^{T} x$ 的函数。从这个“图形化的证明”可以看到不管 $w^{T} x$ 的值是什么， $e r r_{s q r}$ 都是大于 $e r r_{0 / 1}$ 的。也就是在同一个 $w^{T} x$ 下，平方的错误是大于0/1的错误的。

e r r_{0 / 1} \leq e r r_{s q r}

这能说明什么呢？
根据VC维的理论有：

\begin{aligned} (137) & c l a s s i f i c a t i o n E_{o u t} (w) & \leq c l a s s i f i c a t i o n E_{i n} (w) + \sqrt{◯} \\ (138) & \leq r e g r e s s i o n E_{i n} (w) + \sqrt{◯} \end{aligned}

通过上面的这个不等式可以看出，如果我们可以将 $r e g r e s s i o n E_{i n} (w)$ 做的很小，那么在一定的程度上保证了 $c l a s s i f i c a t i o n E_{o u t} (w)$ 也会很小。
所以这就从理论上解释了为什么线性回归可以用来做分类。虽然对于线性分类来说线性回归只是在不断的优化（最小化）它的上限。但是优化它的上限是很容易做到的。
这就是 $l i n e a r r e g r e s s i o n f o r c l a s s i f i c a t i o n$ ，所以当使用 $l i n e a r r e g r e s s i o n$ 计算出来的权重 $w$ 不仅仅可以用于 $r e g r e s s i o n$ ，也可以用于 $b i n a r y c l a s s i f i c a t i o n$ 。在很多情况下表现还是不错的。

具体的使用方法是：

一般的做法当我们需要进行二分类的时候，我们可以使用 $linear regression$ 的结果当做是 $PLA 算法或者是$ \text{Pocket} $算法的初始的$ w_0 $。这样可能会加速$ \text{PLA}算法或者 $Pocket$ 算法的速度。这是一种常见的把 $linear regression$ 使用在资料分类的方式。