文章目录

正交回归
目标函数
求解推导
结果整理
几何意义

上一篇文章使用最小二乘法来拟合直线，有一个重要的缺点就是仅考虑了因变量

y

存在误差的情况，但是很多情况下，原始点的横纵坐标都会有误差存在。

本文使用正交回归的方法，解决了最小二乘的两个缺点：

同时考虑了横纵坐标的误差；
使用点法式直线方程，能够表示二维平面上所有的点。

正交回归

正交方法能够同时考虑自变量 $x$ 和因变量 $y$ 的误差。正交回归将横纵坐标残差的平方和作为目标函数，来求得最优解。直观地理解，正交回归就是找到一条直线，使得点到直线的距离之和最小。
所以如果拟合点的横纵坐标都包含误差的情况下，使用正交回归能够得到更准确的结果。

目标函数

定义横坐标 $x$ 的真值为 $x^{\star}$ ，估计值为 $\hat{x}$ ，则横坐标的误差和残差定义如下：
$\eta_i=x_i-x_i^{\star}$
$\hat{\eta}_i=x_i-\hat{x}_i$

要综合考虑横纵坐标的误差，得出的目标函数应该有如下形式：
$\begin{aligned} \bm{J}_2&=\sum[(\hat{\epsilon}_i)^2+(\hat{\eta}_i)^2] \\ &=\sum[(y_i-\hat{y}_i)^2+(x_i-\hat{x}_i)^2] \end{aligned}$

因为要求目标函数的最小值，所以点 $(\hat{x}_i,\hat{y}_i)$ 应该是直线上到点 $(x_i,y_i)$ 距离最短的点，也就是第 $i$ 个点到直线的正交投影点。所以目标函数可以写成：
$\bm{J}_2=\sum d_i^2$

其中 $d_i$ 为第 $i$ 个点 $(x_i,y_i)$ 到拟合直线的距离。

求解推导

上一篇文章中，最小二乘法使用斜截式直线方程的话，会有无法表示的直线，所以本文使用点法式直线方程。

用点法式直线方程的形式来表示拟合的直线 $a(x-x_0)+b(y-y_0)=0$ ，其中 $(x_0,y_0)$ 是直线经过的一个点的坐标， $(a,b)$ 为直线的法向量。因为向量仅表示一个方向，其长度我们并不关心，所以为了方便计算，我们采用直线的单位法向量来表示。所以有：
$a^2+b^2=1$

第 $i$ 个点到直线的距离，可以表示为向量 $(x_i-x_0,y_i-y_0)$ 在 $(a,b)$ 方向上的投影的长度，所以目标函数可以写成：
$\begin{aligned} \bm{J}_2=\sum d_i^2&=\sum\dfrac{([x_i-x_0,y_i-y_0] \cdot [a,b])^2}{a^2+b^2} \\ &=\sum[a(x_i-x_0)+b(y_i-y_0)]^2 \end{aligned}$

将目标函数 $\bm{J}_2$ 分别对 $x_0$ 和 $y_0$ 求导，并令其等于 $0$ ，得：
$\begin{aligned} \dfrac{\partial \bm{J}_2}{\partial x_0}&=-2a\sum[a(x_i-x_0)+b(y_i-y_0)]=0 \\ \dfrac{\partial \bm{J}_2}{\partial y_0}&=-2b\sum[a(x_i-x_0)+b(y_i-y_0)]=0 \end{aligned}$

上式等号两边同时除以 $n$ ，得：
$a(\bar{x}-x_0)+b(\bar{y}-y_0)=0$
其中 $\bar{x}$ 和 $\bar{y}$ 分别为 $x$ 和 $y$ 的均值。

很明显，点 $(\bar{x},\bar{y})$ 满足直线方程，所以一定在直线上。因此可以令 $x_0=\bar{x}$ ， $y_0=\bar{y}$ 。此时目标函数变为：
$\begin{aligned} \bm{J}_2&=\sum[a(x_i-\bar{x})+b(y_i-\bar{y})]^2 \\&=\left[ \begin{matrix} a & b \end{matrix}\right]\left[ \begin{matrix} \sum(x_i-\bar{x})^2 & \sum(x_i-bar{x})(y_i-\bar{y}) \\ \sum(x_i-\bar{x})(y_i-\bar{y}) & \sum(y_i-\bar{y})^2 \end{matrix}\right]\left[ \begin{matrix} a \\ b \end{matrix} \right] \end{aligned}$

对目标函数 $\bm{J}_2$ 除以 $n$ 可得：
$\begin{aligned} \bm{J}_2 &=\left[ \begin{matrix} a & b \end{matrix}\right]\left[ \begin{matrix} \bm{s}_{xx} & \bm{s}_{xy}\\ \bm{s}_{xy} & \bm{s}_{yy} \end{matrix}\right]\left[ \begin{matrix} a \\ b \end{matrix} \right] \\&=\bm{v}^T\bm{S}\bm{v} \end{aligned}$

其中
$\bm{s}_{xx}$ 和 $\bm{s}_{yy}$ 分别为 $x$ 和 $y$ 的方差， $\bm{s}_{xy}$ 为 $x$ 和 $y$ 的协方差，
$\bm{v}= \left[ \begin{matrix} a \\ b \end{matrix} \right]$ ， $\bm{S}= \left[ \begin{matrix} \bm{s}_{xx} & \bm{s}_{xy}\\ \bm{s}_{xy} & \bm{s}_{yy} \end{matrix} \right]$ 。

很明显，这是一个二次型求最小值的问题。因为 $\bm{S}$ 为实对称矩阵，所以可以将其进行正交对角化分解：
$\begin{aligned} \bm{S} &= \left[ \begin{matrix} \bm{q}_1 & \bm{q}_2 \end{matrix} \right] \left[ \begin{matrix} \lambda_1 & 0\\ 0 & \lambda_2 \end{matrix} \right] \left[ \begin{matrix} \bm{q}_1^T \\ \bm{q}_2^T \end{matrix} \right] \\ &=\bm{Q}\bm{\Lambda}\bm{Q}^T \end{aligned}$
其中 $\lambda_1$ 和 $\lambda_2$ 为矩阵 $\bm{S}$ 的特征值， $\bm{q}_1$ 和 $\bm{q}_2$ 为对应的特征向量， $\bm{Q}$ 为特征向量组成的矩阵， $\bm{\Lambda}$ 为特征值组成的对角矩阵。

则有：
$\begin{aligned} \bm{J}_2&=\bm{v}^T\bm{S}\bm{v}\\ &=(\bm{v^T}\bm{Q})\bm{\Lambda}(\bm{v^T}\bm{Q})^T \end{aligned}$
令 $u_1=\bm{v}^T \bm{q}_1$ ， $u_2=\bm{v}^T \bm{q}_2$ ， $\bm{u}=\left[ \begin{matrix} u_1 \\ u_2 \end{matrix} \right]$ 则：
$\begin{aligned} \bm{J}_2&=\bm{u}^T\bm{\Lambda}\bm{u}\\ &=\lambda_1u_1^2+\lambda_2u_2^2 \end{aligned}$

因为
$\bm{u}^T\bm{u}=\bm{v}^T\bm{Q}\bm{Q}^T\bm{v}=\bm{v}^T\bm{v}=1$
所以 $\bm{u}$ 为单位矩阵，即 $u_1^2+u_2^2=1$ 。

不妨设 $\lambda_1 \leq \lambda_2$ ，则可以得到：当 $u_1=1$ , $u_2=0$ 的时候， $\bm{J}_2$ 取得最小值 $\lambda_1$ 。即 $\bm{v}=\bm{q}_1$

所以最终结果是拟合直线的法向量 $\bm{v}$ 等于对应矩阵 $\bm{S}$ 最小特征值的特征向量。

结果整理

拟合直线方程为: $a(x-x_0)+b(y-y_0)=0$ 。其中 $(x_0,y_0)$ 为直线上一点，向量 $\bm{u}=\left[ \begin{matrix} a\\ b \end{matrix}\right]$ 为直线的法向量。

最后结果为：
$x_0=\bar{x}$ ， $y_0=\bar{y}$ 。

拟合直线的法向量 $\bm{v}=\left[ \begin{matrix} a\\ b \end{matrix}\right]$ 为矩阵 $\bm{S}= \left[ \begin{matrix} \bm{s}_{xx} & \bm{s}_{xy}\\ \bm{s}_{xy} & \bm{s}_{yy} \end{matrix} \right]$ 的最小特征值对应的特征向量。

几何意义

从正交回归的直观上的理解是：在二维平面上找到一条直线，使得每个点到直线的垂直距离之和最小。也就是说，正交回归优化的是垂直距离。
线性拟合2-正交回归

上图中红色线段即为每个点的竖直误差，正交回归就是找到这样一条直线，使得红色线段的和最小。

线性拟合2-正交回归