曲线拟合——最小二乘拟合

1 曲线拟合——一元函数的最小二乘拟合

曲线拟合分为两类:插值和逼近。

逼近又包括一元函数和多元函数的逼近,通俗的讲,就是一个变量(一维)和多个变量(多维)的区别。

本文主要讲一元函数的拟合(逼近),包括直线的最小二乘拟合和多项式的最小二乘拟合,以及非线性的最小二乘拟合。

ps:关于多元函数的拟合(逼近),后续会有更新;函数插值,也会后续有更新。

1.1 线性回归(直线的最小二乘拟合)

1.1.2 直线的最佳拟合方法

根据一组二维坐标点(x1,y1),(x2,y2),(x3,y3)(xn,yn)(x_1, y_1), (x_2, y_2), (x_3, y_3)…(x_n, y_n),将其进行拟合成一条直线。直线的数学表达式为:
y=a0+a1x1y = a_0+a_1x_1
其中,a0a_0a1a_1为系数,分别表示截距和斜率。

给定若干个点坐标,可以有很多种拟合成直线的方式,哪一种拟合效果最好呢?
如下图所示,给定7个点,随意给出了几种拟合直线,如黑色、蓝色、紫色三条直线,哪一条效果最理想?如何衡量拟合结果好坏呢?
曲线拟合——最小二乘拟合

这里我们给出一个定义:误差(或残差)。
误差(或残差),就是y的真实值与由线性方程预测的近似值a0+a1x1a_0+a_1x_1之差。用ee表示,可得:e=ya0a1x1e=y-a_0-a_1x_1

“最佳”拟合准则:通过数据点拟合一条“最佳”直线,使所有数据点的残差的平方和最小。

之所以选用残差的平方和最小,是因为:如果选残差的和最小,或者残差的绝对值之和最小,都会导致拟合效果不好,且结果不唯一。具体如下:

  1. 如果选残差的和最小:如图(a)所示,它描述的是对两个点的直线拟合结果。显然,最佳拟合的结果就是连接这两个点的直线。然而,任何通过连线中点的直线(除了正好与连线垂直的直线外)都能使式(17.2)的结果为0,因为这样的直线与两个点的误差刚好大小相等但符号相反,所以刚好抵销了。
    曲线拟合——最小二乘拟合
  2. 如果残差的绝对值之和最小:图(b)说明了为什么这个准则还是不充分的。对于图中的四个点,位于两条虚线之间的任何直线,都会使上式中的绝对值之和最小。因此,使用这个准则也不能得到唯一的最优拟合直线。
    曲线拟合——最小二乘拟合
    啰嗦了这么多,最后我们终于选定了将残差的平方和最小作为“最佳”拟合准则。
    也就是使Sr的值最小:
    曲线拟合——最小二乘拟合

1.1.2 如何计算

那么怎么计算直线的系数a0a_0a1a_1,才能保证直线最优呢。
方法如下:
曲线拟合——最小二乘拟合
令这些偏导数等于0,就可以得到残差平方和Sr的一个最小值。令这些偏导数等于0后,上面的方程
变为:
曲线拟合——最小二乘拟合
曲线拟合——最小二乘拟合
联立解方程组可得:

曲线拟合——最小二乘拟合
曲线拟合——最小二乘拟合

1.1.2 误差量化分析

残差的平方和Sr为:
曲线拟合——最小二乘拟合
引入回归直线的“标准差”的概念和计算公式:
曲线拟合——最小二乘拟合
此外,还有“相关系数”也用来衡量直线拟合好坏(感兴趣可以查阅相关资料了解),如下:
曲线拟合——最小二乘拟合
其中,St表示,因变量(在本例中为yiy_i)的均值的误差平方总和。

1.2 多项式回归(多项式的最小二乘拟合)

(待更新)

1.3 非线性回归(非线性的最小二乘拟合)

(待更新)