曲线拟合——最小二乘拟合
曲线拟合——最小二乘拟合
1 曲线拟合——一元函数的最小二乘拟合
曲线拟合分为两类:插值和逼近。
逼近又包括一元函数和多元函数的逼近,通俗的讲,就是一个变量(一维)和多个变量(多维)的区别。
本文主要讲一元函数的拟合(逼近),包括直线的最小二乘拟合和多项式的最小二乘拟合,以及非线性的最小二乘拟合。
ps:关于多元函数的拟合(逼近),后续会有更新;函数插值,也会后续有更新。
1.1 线性回归(直线的最小二乘拟合)
1.1.2 直线的最佳拟合方法
根据一组二维坐标点,将其进行拟合成一条直线。直线的数学表达式为:
其中,和为系数,分别表示截距和斜率。
给定若干个点坐标,可以有很多种拟合成直线的方式,哪一种拟合效果最好呢?
如下图所示,给定7个点,随意给出了几种拟合直线,如黑色、蓝色、紫色三条直线,哪一条效果最理想?如何衡量拟合结果好坏呢?
这里我们给出一个定义:误差(或残差)。
误差(或残差),就是y的真实值与由线性方程预测的近似值之差。用表示,可得:。
“最佳”拟合准则:通过数据点拟合一条“最佳”直线,使所有数据点的残差的平方和最小。
之所以选用残差的平方和最小,是因为:如果选残差的和最小,或者残差的绝对值之和最小,都会导致拟合效果不好,且结果不唯一。具体如下:
-
如果选残差的和最小:如图(a)所示,它描述的是对两个点的直线拟合结果。显然,最佳拟合的结果就是连接这两个点的直线。然而,任何通过连线中点的直线(除了正好与连线垂直的直线外)都能使式(17.2)的结果为0,因为这样的直线与两个点的误差刚好大小相等但符号相反,所以刚好抵销了。
-
如果残差的绝对值之和最小:图(b)说明了为什么这个准则还是不充分的。对于图中的四个点,位于两条虚线之间的任何直线,都会使上式中的绝对值之和最小。因此,使用这个准则也不能得到唯一的最优拟合直线。
啰嗦了这么多,最后我们终于选定了将残差的平方和最小作为“最佳”拟合准则。
也就是使Sr的值最小:
1.1.2 如何计算
那么怎么计算直线的系数和,才能保证直线最优呢。
方法如下:
令这些偏导数等于0,就可以得到残差平方和Sr的一个最小值。令这些偏导数等于0后,上面的方程
变为:
联立解方程组可得:
1.1.2 误差量化分析
残差的平方和Sr为:
引入回归直线的“标准差”的概念和计算公式:
此外,还有“相关系数”也用来衡量直线拟合好坏(感兴趣可以查阅相关资料了解),如下:
其中,St表示,因变量(在本例中为)的均值的误差平方总和。
1.2 多项式回归(多项式的最小二乘拟合)
(待更新)
1.3 非线性回归(非线性的最小二乘拟合)
(待更新)