回归预测数值型数据

一.回归分析

1.概念

回归分析是一种数学模型。当因变量和自变量为线性关系时，它是一种特殊的线性模型。 [1]

最简单的情形是一元线性回归，由大体上有线性关系的一个自变量和一个因变量组成；模型是Y=a+bX+ε（X是自变量，Y是因变量，ε是随机误差）。

通常假定随机误差的均值为0，方差为σ^2（σ^2﹥0，σ^2与X的值无关）。若进一步假定随机误差遵从正态分布，就叫做正态线性模型。一般的，若有k个自变量和1个因变量，则因变量的值分为两部分：一部分由自变量影响，即表示为它的函数，函数形式已知且含有未知参数；另一部分由其他的未考虑因素和随机性影响，即随机误差。

当函数为参数未知的线性函数时，称为线性回归分析模型；当函数为参数未知的非线性函数时，称为非线性回归分析模型。当自变量个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

2.回归分析内容

回归分析的主要内容有以下：

①从一组数据出发，确定某些变量之间的定量关系式；即建立数学模型并估计未知参数。通常用最小二乘法。

②检验这些关系式的可信任程度。

③在多个自变量影响一个因变量的关系中，判断自变量的影响是否显著，并将影响显著的选入模型中，剔除不显著的变量。通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一过程进行预测或控制。

回归分析的应用非常广泛，统计软件包的使用可以让各种算法更加方便。

回归主要的种类有：线性回归、曲线回归、二元logistic回归、多元logistic回归。

3.回归开发流程

收集数据：采用任意方法收集数据。

准备数据：回归需要数值型数据，标称型数据将被转换为二值型数据。

分析数据：绘制出可视化的二维图将有助于对数据进行理解和分析，在采用缩减法求得新的回归系数之后，可以将新的拟合线绘制在图上进行比较分析。

训练算法：找到回归系数。

测试算法：使用R^2或者预测值与数据的拟合度，来分析模型的效果。

使用算法：使用回归，可以在给定输入时预测出一个数值，这是对分类算法的提升，因为这样可以预测连续型数据而不仅仅只预测离散型的分类标签。

4、优缺点

优点：结果易于理解，计算上不复杂。

缺点：对非线性的拟合不够好。

使用数据类型：数值型和标称型数据。

二、项目案例

1、项目案例之简单线性回归

1.1 项目概述

根据下图散点图情况，给出该数据的最佳拟合直线。

回归预测数值型数据

1.2 样本数据样式（ex0.txt)

0.138306 3.149813

0.247809 3.476346

0.64827 4.119688

0.731209 4.282233

0.236833 3.486582

0.969788 4.655492

0.607492 3.965162

0.358622 3.5149

0.147846 3.125947

1.3 简单线性回归实现过程如下

得到如下图形效果：回归预测数值型数据

2、局部加权线性回归

2.1 概念理解

线性回归中可能会遇到的一个问题是出现欠拟合现象，因为它要求的是具有最小均方误差的无偏估计。显然，如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许引入一些偏差，进而降低预测的均方误差。这里的局部加权线性回归（Locally Weights Linear Regression， LWLR）就是其中方法之一。在该算法中，我们给予待预测点附近的每个点赋予一定的权重，与上面简单线性回归类似，基于这个子集上基于最小均方差来进行普通回归。需要进行最小化的目标函数如下：
回归预测数值型数据