回归预测数值型数据

回归预测数值型数据

一.回归分析

1.概念

回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。 [1] 

最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。 

通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关)。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差。

当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

 

2.回归分析内容

回归分析的主要内容有以下:

①从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数。通常用最小二乘法

②检验这些关系式的可信任程度。

③在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量。通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一过程进行预测或控制。

回归分析的应用非常广泛,统计软件包的使用可以让各种算法更加方便。

回归主要的种类有:线性回归、曲线回归、二元logistic回归、多元logistic回归。

3.回归开发流程

收集数据: 采用任意方法收集数据。

准备数据: 回归需要数值型数据,标称型数据将被转换为二值型数据。

分析数据: 绘制出可视化的二维图将有助于对数据进行理解和分析,在采用缩减法求得新的回归系数之后,可以将新的拟合线绘制在图上进行比较分析。

训练算法: 找到回归系数。

测试算法: 使用R^2或者预测值与数据的拟合度,来分析模型的效果。

使用算法: 使用回归,可以在给定输入时预测出一个数值,这是对分类算法的提升,因为这样可以预测连续型数据而不仅仅只预测离散型的分类标签。

4、 优缺点

优点: 结果易于理解, 计算上不复杂。

缺点: 对非线性的拟合不够好。

使用数据类型: 数值型和标称型数据。

二、项目案例

1、项目案例之简单线性回归

1.1 项目概述

根据下图散点图情况,给出该数据的最佳拟合直线。

回归预测数值型数据

1.2  样本数据样式(ex0.txt)

0.138306    3.149813

0.247809    3.476346

0.64827 4.119688

0.731209    4.282233

0.236833    3.486582

0.969788    4.655492

0.607492    3.965162

0.358622    3.5149

0.147846    3.125947

 

1.3 简单线性回归实现过程如下

得到如下图形效果:回归预测数值型数据

2、局部加权线性回归


2.1 概念理解

线性回归中可能会遇到的一个问题是出现欠拟合现象,因为它要求的是具有最小均方误差的无偏估计。显然,如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许引入一些偏差,进而降低预测的均方误差。这里的局部加权线性回归(Locally Weights Linear Regression, LWLR)就是其中方法之一。在该算法中,我们给予待预测点附近的每个点赋予一定的权重,与上面简单线性回归类似,基于这个子集上基于最小均方差来进行普通回归。需要进行最小化的目标函数如下:
回归预测数值型数据

与KNN一样,这种算法每次预测均需要事先选取出对应的数据子集。该算法解出的回归系数w的形式如下:

回归预测数值型数据,这里w 是一个矩阵,用来给每个数据点赋予权重。

LWLR使用“核”(与支持向量机中的核类似)来对附近的点赋予更高的权重。核的类型可以自由选择,常用的核是高斯核,高斯核对应的权重如下:

回归预测数值型数据

所以,这样我们就构建了一个只含对角元素的权重矩阵w,且点x与x(i)越近,w(i,i)将会越大。上面公式中包含一个需要用户指定的参数k,它就决定了对附近点赋予多大的权重,这也是局部加权线性回归唯一需要考虑的参数。下图展示了参数k与权重的关系。

回归预测数值型数据

图中,每个点的权重图(假如我们预测的点是x=0.5),最上面的图是原始数据,第二个图显示了k=0.5时,大部分数据都用于训练回归模型;而最小面的显示当k=0.01时,仅有较少量的局部点被用于训练回归模型。

2.2 局部加权线性回归原理

 

读取相关数据,将特征X、特征标签Y存储到矩阵x、y中;

利用高斯核构建一个权重矩阵W,对预测值附近的点赋予权重;

验证矩阵X^TX是否可逆;

使用最小二乘法求得回归系数w的最佳估计。

 

2.3 局部加权线性回归实现过程(样本数据同样是ex0.txt

 

2.4 模型效果展示即分析

这里调整参数k,使其分别取1.0、0.01、0.003,得到三张不同的拟合图像,分别如下:

回归预测数值型数据

回归预测数值型数据

回归预测数值型数据


对于模型效果分析如下:

使用3种不同平滑值绘制出的局部加权线性回归结果中,上图k=1.0时的模型效果与最小二乘法差不多,k=0.01时该模型可以挖出数据的潜在规律,而k=0.003时则考虑了太多的噪声,出现了过拟合现象。