回归预测数值型数据
回归预测数值型数据
一.回归分析
1.概念
回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。 [1]
最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。
通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关)。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差。
当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
2.回归分析内容
回归分析的主要内容有以下:
①从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数。通常用最小二乘法。
②检验这些关系式的可信任程度。
③在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量。通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一过程进行预测或控制。
回归分析的应用非常广泛,统计软件包的使用可以让各种算法更加方便。
回归主要的种类有:线性回归、曲线回归、二元logistic回归、多元logistic回归。
3.回归开发流程
收集数据: 采用任意方法收集数据。
准备数据: 回归需要数值型数据,标称型数据将被转换为二值型数据。
分析数据: 绘制出可视化的二维图将有助于对数据进行理解和分析,在采用缩减法求得新的回归系数之后,可以将新的拟合线绘制在图上进行比较分析。
训练算法: 找到回归系数。
测试算法: 使用R^2或者预测值与数据的拟合度,来分析模型的效果。
使用算法: 使用回归,可以在给定输入时预测出一个数值,这是对分类算法的提升,因为这样可以预测连续型数据而不仅仅只预测离散型的分类标签。
4、 优缺点
优点: 结果易于理解, 计算上不复杂。
缺点: 对非线性的拟合不够好。
使用数据类型: 数值型和标称型数据。
二、项目案例
1、项目案例之简单线性回归
1.1 项目概述
根据下图散点图情况,给出该数据的最佳拟合直线。
1.2 样本数据样式(ex0.txt)
0.138306 3.149813
0.247809 3.476346
0.64827 4.119688
0.731209 4.282233
0.236833 3.486582
0.969788 4.655492
0.607492 3.965162
0.358622 3.5149
0.147846 3.125947
1.3 简单线性回归实现过程如下
得到如下图形效果:
2、局部加权线性回归
2.1 概念理解
线性回归中可能会遇到的一个问题是出现欠拟合现象,因为它要求的是具有最小均方误差的无偏估计。显然,如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许引入一些偏差,进而降低预测的均方误差。这里的局部加权线性回归(Locally Weights Linear Regression, LWLR)就是其中方法之一。在该算法中,我们给予待预测点附近的每个点赋予一定的权重,与上面简单线性回归类似,基于这个子集上基于最小均方差来进行普通回归。需要进行最小化的目标函数如下:
与KNN一样,这种算法每次预测均需要事先选取出对应的数据子集。该算法解出的回归系数w的形式如下:
,这里w 是一个矩阵,用来给每个数据点赋予权重。
LWLR使用“核”(与支持向量机中的核类似)来对附近的点赋予更高的权重。核的类型可以自由选择,常用的核是高斯核,高斯核对应的权重如下:
所以,这样我们就构建了一个只含对角元素的权重矩阵w,且点x与x(i)越近,w(i,i)将会越大。上面公式中包含一个需要用户指定的参数k,它就决定了对附近点赋予多大的权重,这也是局部加权线性回归唯一需要考虑的参数。下图展示了参数k与权重的关系。
图中,每个点的权重图(假如我们预测的点是x=0.5),最上面的图是原始数据,第二个图显示了k=0.5时,大部分数据都用于训练回归模型;而最小面的显示当k=0.01时,仅有较少量的局部点被用于训练回归模型。
2.2 局部加权线性回归原理
读取相关数据,将特征X、特征标签Y存储到矩阵x、y中;
利用高斯核构建一个权重矩阵W,对预测值附近的点赋予权重;
验证矩阵X^TX是否可逆;
使用最小二乘法求得回归系数w的最佳估计。
2.3 局部加权线性回归实现过程(样本数据同样是ex0.txt)
2.4 模型效果展示即分析
这里调整参数k,使其分别取1.0、0.01、0.003,得到三张不同的拟合图像,分别如下:
对于模型效果分析如下:
使用3种不同平滑值绘制出的局部加权线性回归结果中,上图k=1.0时的模型效果与最小二乘法差不多,k=0.01时该模型可以挖出数据的潜在规律,而k=0.003时则考虑了太多的噪声,出现了过拟合现象。