机器学习简单入门笔记-线性回归

一.线性回归分析

1.原理

试图通过属性的线性组合来进行预测的函数:
机器学习简单入门笔记-线性回归
预测结果和真实结果之间存在误差
机器学习简单入门笔记-线性回归机器学习简单入门笔记-线性回归

2.损失函数

为了找到拟合效果最好的函数,使误差降到最低,需要引入误差函数来判定舞茶道大小
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200314134402788.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2k2MjIzNjcx,size_16,color_FFFFFF ,t_70)
所以,寻找目标函数就是寻找一组权值w使得损失函数最小
方法一:正规方程
机器学习简单入门笔记-线性回归
方法二:梯度下降
我们以单变量中的w0,w1为例子理解找到w的方法----梯度下降机器学习简单入门笔记-线性回归机器学习简单入门笔记-线性回归
具体解释梯度下降梯度下降

3.API

机器学习简单入门笔记-线性回归
机器学习简单入门笔记-线性回归

4.线性回归的评估

机器学习简单入门笔记-线性回归
API机器学习简单入门笔记-线性回归

5.过拟合和欠拟合

1.定义
过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)机器学习简单入门笔记-线性回归
2.解决办法
(1)欠拟合
原因:
学习到数据的特征过少
表征:
交叉验证表现和测试集上的表现都不好
解决办法:
增加数据的特征数量
(2)过拟合
原因:
原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
表征:
交叉验证表现很好,但是在测试集上表现不好
解决办法:
进行特征选择,消除关联性大的特征(很难做)交叉验证(让所有数据都有过训练)正则化

6.正则化

简单来说,正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。

机器学习简单入门笔记-线性回归

7.带有正则化的岭回归

机器学习简单入门笔记-线性回归机器学习简单入门笔记-线性回归
可以看出随着正则化的力度加强,各个权重的值逐渐降低
岭回归:回归得到的回归系数更符合实际,更可靠。另外,能让估计参数的波动范围变小,变的更稳定。在存在病态数据偏多的研究中有较大的实用价值。