预测数值型数据:回归

主要有:线性回归、局部加权线性回归、岭回归和逐步线性回归。

1、用线性回归找到最佳拟合直线

优点:结果易于理解,计算不复杂

缺点:对非线性的数据拟合不好

使用数据类型:数值型和标称型数据

回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。这就是所谓的回归方程。求回归系数的过程就是回归。

回归的一般方法:

(1) 收集数据:任意方式

(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据

(3) 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比

(4) 训练算法:使用R2或者预测值和数据的拟合度,来分析模型的效果

(5) 使用算法:使用回归,可以给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

 

线性回归

1)准备数据

loadDataSet()函数从数据中得到两个数组,分别存放x和y中。y是目标值。

预测数值型数据:回归

2)分析数据

standRegres()函数用来计算最佳拟合直线。执行效果如ws.

最佳拟合直线方法将数据视为直线进行建模,具有十分不错的表现。

预测数值型数据:回归

预测数值型数据:回归

局部加权线性回归

线性回归的一个问题是有可能出现欠拟合现象,因为它求的是具有最小均方误差的无偏估计。所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。

预测数值型数据:回归

预测数值型数据:回归

预测数值型数据:回归

预测数值型数据:回归

K=0.003,从下图可以看出有过拟合现象,可以将k=0.001

缩减系数来“理解”数据

岭回归(ridge regression)

预测数值型数据:回归

预测数值型数据:回归

预测数值型数据:回归

预测乐高玩具套装的价格

(1) 收集数据:用Google shopping的API收集数据

(2) 准备数据:从返回的JSON数据中抽取价格

(3) 分析数据:可视化并观察数据

(4) 训练算法:构建不同的模型,采用逐步线性回归和直接的线性回归模型

(5) 测试算法:使用交叉验证来测试不同的模型,分析哪个效果最好

(6) 使用算法:本次练习的目标是生成数据模型

这涉及到爬虫,慢慢添加吧!!!

 

小结

与分类一样,回归也是预测目标值的过程。回归于分类的不同点在于,前者预测连续型变量,而后者预测离散型变量。在回归方程里,求得特征对应的最佳回归系数的方法是最小化误差的平方和。数据集上计算出的回归方程并不一定意味着它是最佳的,可以使用预测值yHat和原始值y的相关性来度量回归方程的好坏。

资源下载地址:

http://download.****.net/download/qq_34385827/9956705

祝大家顺利。