预测数值型数据:回归
主要有:线性回归、局部加权线性回归、岭回归和逐步线性回归。
1、用线性回归找到最佳拟合直线
优点:结果易于理解,计算不复杂
缺点:对非线性的数据拟合不好
使用数据类型:数值型和标称型数据
回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。这就是所谓的回归方程。求回归系数的过程就是回归。
回归的一般方法:
(1) 收集数据:任意方式
(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据
(3) 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比
(4) 训练算法:使用R2或者预测值和数据的拟合度,来分析模型的效果
(5) 使用算法:使用回归,可以给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。
线性回归
1)准备数据
loadDataSet()函数从数据中得到两个数组,分别存放x和y中。y是目标值。
2)分析数据
standRegres()函数用来计算最佳拟合直线。执行效果如ws.
最佳拟合直线方法将数据视为直线进行建模,具有十分不错的表现。
局部加权线性回归
线性回归的一个问题是有可能出现欠拟合现象,因为它求的是具有最小均方误差的无偏估计。所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。
K=0.003,从下图可以看出有过拟合现象,可以将k=0.001
缩减系数来“理解”数据
岭回归(ridge regression)
预测乐高玩具套装的价格
(1) 收集数据:用Google shopping的API收集数据
(2) 准备数据:从返回的JSON数据中抽取价格
(3) 分析数据:可视化并观察数据
(4) 训练算法:构建不同的模型,采用逐步线性回归和直接的线性回归模型
(5) 测试算法:使用交叉验证来测试不同的模型,分析哪个效果最好
(6) 使用算法:本次练习的目标是生成数据模型
这涉及到爬虫,慢慢添加吧!!!
小结
与分类一样,回归也是预测目标值的过程。回归于分类的不同点在于,前者预测连续型变量,而后者预测离散型变量。在回归方程里,求得特征对应的最佳回归系数的方法是最小化误差的平方和。数据集上计算出的回归方程并不一定意味着它是最佳的,可以使用预测值yHat和原始值y的相关性来度量回归方程的好坏。
资源下载地址:
http://download.****.net/download/qq_34385827/9956705
祝大家顺利。