Linear Regression

简介

线性回归是一种回归学习方法，一般用于处理连续性变量，算是机器学习的入门算法。虽然线性模型的形式很简单，但是线性模型的思想是很重要的，许多非线性模型都是在线性模型的基础上通过引入高维映射而得。

给定数据集 $D=\{(x_1,y_1), ..., (x_m, y_m\}$ ，其中 $x_i=(x_{i1}, ..., x_{id})$ ，线性回归模型试图学习到 $\hat y=w^Tx+b$ ，使得 $\hat y$ 近似等于 $y$ 。

一般选用均方误差(mean square error， MSE)，采用**最小二乘法(least square method)**求解，简单来说就是找到一条直线，使所有样本到直线上的欧氏距离之和最小。

均方误差即 $L=\frac1{2m}\Sigma_{i=1}^m(\hat y-y)^2$ ，这里乘了 $\frac12$ 是为了使后面的计算式更为简洁。

基本思路：首先赋予 $w$ 、 $b$ 初始值，用链式法则求出梯度，沿着梯度的反方向不断更新参数，使损失函数不断减小至收敛。具体求法为：

$\frac{\partial L}{\partial w}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial w}=\frac 1m\Sigma_{i=0}^m(\hat y_i-y_i)x_i$

$\frac{\partial L}{\partial b}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial b}=\frac 1m\Sigma_{i=0}^m(\hat y_i-y_i)$

参数更新：

$w_j←w_j+α(y−\hat y)x_j$

$b←b+α(y−\hat y)$

其中 $\alpha$ 称为学习率（learning rate）。

线性回归——Linear Regression原理

reference：