一.线性回归分析

1.原理

试图通过属性的线性组合来进行预测的函数：
机器学习简单入门笔记-线性回归
预测结果和真实结果之间存在误差

2.损失函数

为了找到拟合效果最好的函数,使误差降到最低,需要引入误差函数来判定舞茶道大小
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200314134402788.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2k2MjIzNjcx,size_16,color_FFFFFF ,t_70)
所以,寻找目标函数就是寻找一组权值w使得损失函数最小
方法一:正规方程
机器学习简单入门笔记-线性回归
方法二:梯度下降
我们以单变量中的w0,w1为例子理解找到w的方法----梯度下降
具体解释梯度下降梯度下降

3.API

机器学习简单入门笔记-线性回归

4.线性回归的评估

机器学习简单入门笔记-线性回归
API

5.过拟合和欠拟合

1.定义
过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合：一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单) 机器学习简单入门笔记-线性回归
2.解决办法
(1)欠拟合
原因：
学习到数据的特征过少
表征:
交叉验证表现和测试集上的表现都不好
解决办法：
增加数据的特征数量
(2)过拟合
原因：
原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点
表征:
交叉验证表现很好,但是在测试集上表现不好
解决办法：
进行特征选择，消除关联性大的特征(很难做)交叉验证(让所有数据都有过训练)正则化

6.正则化

简单来说，正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时，最终目的是让模型在面对新数据的时候，可以有很好的表现。当你用比较复杂的模型比如神经网络，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这会导致模型的泛化能力下降，这时候，我们就需要使用正则化，降低模型的复杂度。

机器学习简单入门笔记-线性回归

7.带有正则化的岭回归

机器学习简单入门笔记-线性回归
可以看出随着正则化的力度加强,各个权重的值逐渐降低
岭回归：回归得到的回归系数更符合实际，更可靠。另外，能让估计参数的波动范围变小，变的更稳定。在存在病态数据偏多的研究中有较大的实用价值。

机器学习简单入门笔记-线性回归

文章目录

一.线性回归分析

1.原理

2.损失函数

3.API

4.线性回归的评估

5.过拟合和欠拟合

6.正则化

7.带有正则化的岭回归

相关推荐