机器学习入门 ————》 一元及多元线性回归

1、线性回归(line Regression)

回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量

• 回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
• 被预测的变量叫做:因变量(dependent variable),输出(output)
• 被用来进行预测的变量叫做: 自变量(independent  variable), 输入(input)
一元线性回归包含一个自变量和一个因变量
• 以上两个变量的关系用一条直线来模拟
• 如果包含两个以上的自变量,则称作多元回归分析 (multiple regression)

机器学习入门 ————》 一元及多元线性回归

正相关  positive(斜率正)   负相关 negative (斜率负)

理解:就是得到很多点,求解一元二次方程组。但两点确定一条回归线,很多点就会产生很多回归线,哪一条线才是最佳的回归线呢?

 2、代价函数(Cost Function)或损失函数(Lost  Function)

用于判断最佳回归线,越小越好,拟合的越好。

机器学习入门 ————》 一元及多元线性回归

机器学习入门 ————》 一元及多元线性回归

平方是把误差都变为正。求和,除以m。除2,是因为后面求导,与平方的2约掉,就是为了方便,也不影响判断。

刚刚说有很多点就会产生很多回归线,那每个回归线就有一个斜率,一个损失函数值。

先看简单的,把截距去掉,损失函数少一个变量。机器学习入门 ————》 一元及多元线性回归

机器学习入门 ————》 一元及多元线性回归

取不同斜率,有不同的损失函数值

机器学习入门 ————》 一元及多元线性回归机器学习入门 ————》 一元及多元线性回归机器学习入门 ————》 一元及多元线性回归

机器学习入门 ————》 一元及多元线性回归      当斜率为1时,损失函数最小。

 

加上截距的变量

机器学习入门 ————》 一元及多元线性回归

机器学习入门 ————》 一元及多元线性回归

   机器学习入门 ————》 一元及多元线性回归

最小值在圈中心,好像银河系呃。

机器学习入门 ————》 一元及多元线性回归

那怎么求斜率和截距得到最小的损失值呢?

3、梯度下降法(Gradient Descent)

机器学习入门 ————》 一元及多元线性回归

初始值 斜率和截距会影响结果,得到的是局部最小值,可能是最小值,也可能不是。

机器学习入门 ————》 一元及多元线性回归

机器学习入门 ————》 一元及多元线性回归

迭代方法,右边斜率和截距更新不同步,会把损失值改变,从而得到错误的迭代。

学习率,太大,不能得到最佳的斜率和截距。太小迭代次数增多,时间加长。

机器学习入门 ————》 一元及多元线性回归

代价函数是凸函数,只有一个极值,也就是最值。这个点就是最佳回归线的截距和斜率。

机器学习入门 ————》 一元及多元线性回归

凸函数一个极值,非凸函数,多个极值。如果代价函数不是凸函数,那么狠可能不会得到最佳拟合的回归线

机器学习入门 ————》 一元及多元线性回归

 

 多元线性回归

机器学习入门 ————》 一元及多元线性回归

多元,多个特征,多个因变量

二元的。三元,四元无法画出这个平面了,称为超平面。

机器学习入门 ————》 一元及多元线性回归

代价函数,梯度下降都是同样的算法。只不过是增加了几个因变量。

机器学习入门 ————》 一元及多元线性回归

二元                                                           多元

机器学习入门 ————》 一元及多元线性回归

标准方程法,多元线性回归

机器学习入门 ————》 一元及多元线性回归

用矩阵的方式处理

 

 

当数据量小时,使用交叉印证法。

把数据集分为十份。标号,1-10.第一次。用1做测试集,2-10做训练集。第二次,用2做测试集,1,3-10做训练集,以此类推

再把十次得到的误差做平均

机器学习入门 ————》 一元及多元线性回归

 

过拟合,训练集很好,测试集很差

机器学习入门 ————》 一元及多元线性回归

防止过拟合

机器学习入门 ————》 一元及多元线性回归