局部加权线性回归

一、问题引入

我们现实生活中的很多数据不一定都能用线性模型描述。依然是房价问题，很明显直线非但不能很好的拟合所有数据点，而且误差非常大，但是一条类似二次函数的曲线却能拟合地很好。为了解决非线性模型建立线性模型的问题，我们预测一个点的值时，选择与这个点相近的点而不是所有的点做线性回归。基于这个思想，便产生了局部加权线性回归算法。在这个算法中，其他离一个点越近，权重越大，对回归系数的贡献就越多。

二、问题分析
本算法依然使用损失函数J，只不过是加权的J函数：
局部加权线性回归
其中w(i)是权重，它根据要预测的点与数据集中的点的距离来为数据集中的点赋权值。当某点离要预测的点越远，其权重越小，否则越大。一个比较好的权重函数如下：

该函数称为指数衰减函数，其中k为波长参数，它控制了权值随距离下降的速率，该函数形式上类似高斯分布(正态分布)，但并没有任何高斯分布的意义。该算法解出回归系数如下：
局部加权线性回归
在使用这个算法训练数据的时候，不仅需要学习线性回归的参数，还需要学习波长参数。这个算法的问题在于，对于每一个要预测的点，都要重新依据整个数据集计算一个线性回归模型出来，使得算法代价极高。

局部加权线性回归

相关推荐