CS229学习笔记之概率解释与局部加权线性回归

系列第二篇~

在线性回归中，为什么要选择最小二乘函数作为代价函数？我们可以用概率模型来对其进行解释。

假设真实值与输入之间满足如下等式：

y (i) = θ T x (i) + ϵ (i)

其中ϵ(i)是误差项，表示没有被建模的因素或是随机噪声。进一步假设误差项是独立同分布的，那么根据中心极限定理，大量相互独立的随机变量之和是符合正态分布（可以理解为大量独立随机变量的大部分误差会相互抵消），即ϵ(i)∼(0,σ2)，那么有：

p (ϵ (i)) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (ϵ (i)) 2 2 σ 2)

因为误差的概率和预测出真实值的概率是一样的，因此：

p (y (i) ∣ x (i); θ) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y (i) - θ T x (i)) 2 2 σ 2)

注意，这里p(y(i)∣x(i);θ)不同于p(y(i)∣x(i),θ)，这里指给定x(i)，以θ为参数的y(i)的分布，因为对于训练集，θ是客观存在的，只是当前还不确定，所以有

y (i) ∣ x (i); θ \sim  (θ T x (i), σ 2)

即真实值应该是以预测值为中心的一个正态分布。

给定训练集X和参数θ，预测结果等于真实结果的概率，将其看作θ的函数，可以理解为θ为真实θ的可能性（似然性），即：

L (θ) = L (θ; X, y ⃗) = p (y ⃗ ∣ X; θ)

因为假设ϵ(i)是独立的（即给定x(i)，y(i)也是独立的），所以有：

L (θ) = \prod i = 1 m p (y (i) ∣ x (i); θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y (i) - θ T x (i)) 2 2 σ 2)

现在，我们可以通过最大似然法，即找出使L(θ)最大的那个θ，作为对参数θ的最佳取值。

实际应用中，为了简化计算，通常不直接求似然函数的最大值，而是采用对数似然函数：

ℓ (θ) = log L (θ) = log \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y (i) - θ T x (i)) 2 2 σ 2) = \sum i = 1 m log 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y (i) - θ T x (i)) 2 2 σ 2) = m log 1 2 π ‾ ‾ ‾ \sqrt σ - 1 σ 2 \cdot 12 \sum i = 1 m (y (i) - θ T x (i)) 2

因此，最大化l(θ)就是最小化：

12 \sum i = 1 m (y (i) - θ T x (i)) 2

而这正是我们之前提出的最小二乘代价函数！

注意点：

对于传统的线性回归，特征的选择极为重要，对于下面三幅图，我们称第一幅图的模型是欠拟合，第三幅图的模型则是过拟合。

CS229学习笔记之概率解释与局部加权线性回归

可以看出，找到一个全局的线性模型去拟合整个训练集，并不是一件简单的事情，往往会引起欠拟合或是过拟合的发生，对于这种情况之后会给出解决方案，而这里我们提出了另外一种思路，即局部线性加权回归，这种方案可以使特征的选择的重要性降低。

局部线性加权回归的思路是并不去拟合整个训练集来产生全局的模型，而是在每次预测时，只去拟合给定输入x附近的一小段训练集，无论全局训练集是怎样的一条分布曲线，在局部小段数据上，都可以用线性去逼近。具体步骤如下：

1. 2. Fit θ to minimize \sum i ω (i) (y (i) - θ T x (i)) 2 Output θ T x

这里ω(i)是非负权重，一般取为

ω (i) = e x p (- (x (i) - x) 2 2 τ 2)

（当x为向量时表达式有所不同）

可以看出，离给定输入越近的样本点权重越大，拟合程度越高。

注意：ω(i)的定义与高斯分布类似，但并没有关系，分布曲线同为钟型。τ称为带宽参数，用来控制钟型曲线的顶峰下降速度，即权重变化的快慢，需要根据具体情况作出调整。

局部加权线性回归本质上是一种非参数学习算法，而传统的线性回归是一种参数学习算法。

两者的区别在于参数学习算法有一组有限的、固定的参数，一旦完成拟合，只需要保存下参数值做预测，而不需要保存完整的训练集；而非参数学习算法由于参数不固定，所以需要保存完整的训练集来进行预测，而不仅仅是保存参数。

非参数导致的结果：为了表达假设h而保存的数据将随着训练集的大小而线性增长。