线性回归算法梳理

线性回归算法梳理

目录

文中肯定有许多描述不恰当、理解不到位的地方,希望大神们拍正。另外文中一些段落是在引用了一些其它博文的话的基础上的理解,如有侵犯,请指正

1. 基础知识

1.1 有监督学习

有监督又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。经历这个过程后,模型具有了预知能力。

1.2 无监督学习

无监督被称为“没有老师的学习”,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,也就是没有老师告诉你对错,全靠自己探索。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中也会用到无监督学习。

1.3过拟合与欠拟合

过拟合模型表现为在训练集上具有高方差和低偏差。
欠拟合模型表现为在训练集上具有低方差和高偏差。
过拟合会造成模型变得复杂,并尽可能拟合训练集,造成在训练集上的准确率特别高;欠拟合比较好理解就是模型简单或者说语料集偏少、特征太多,在训练集上的准确率不高,同时在测试集上的准确率也不高,这样如何训练都无法训练出有意义的参数,模型也得不到较好的效果

2. 线性回归的原理

线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。

优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据

3. 线性回归损失函数、代价函数、目标函数的概念

线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。
我们用X1,X2…Xn 去描述feature里面的分量,比如x1=房间的面积,x2=房间的朝向,等等,我们可以做出一个估计函数:
线性回归算法梳理
θ在这儿称为参数,在这的意思是调整feature中每个分量的影响力,就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1,就可以用向量的方式来表示了:
线性回归算法梳理
我们程序也需要一个机制去评估我们θ是否比较好,所以说需要对我们做出的h函数进行评估,一般这个函数称为损失函数(loss function)或者错误函数(error function),描述h函数不好的程度,在下面,我们称这个函数为J函数
在这儿我们可以认为错误函数如下:
线性回归算法梳理
这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数,前面乘上的1/2是为了在求导的时候,这个系数就不见了。

4. 一元线性回归的参数求解公式推导

线性回归算法梳理
线性回归算法梳理

5. 多元线性回归的参数求解公式推导

线性回归算法梳理
线性回归算法梳理

6. 线性回归的评估指标

衡量线性回归法的指标:MSE, RMSE和MAE
衡量线性回归法最好的指标 R Squared

7. 参考资料

https://blog.csdn.net/wx_blue_pig/article/details/79779500
https://blog.csdn.net/wx_blue_pig/article/details/79791906