多元线性回归中的公式推导

这次接着一元线性回归继续介绍多元线性回归，同样还是参靠周志华老师的《机器学习》，把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。

本文用到的部分关于向量求导的知识可以参看博文标量、向量、矩阵求导

数据集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}) \dots (x_{m}, y_{m})}$ ，其中 $x_{i} = [x_{i}^{(1)}, x_{i}^{(2)} \dots x_{i}^{(d)}]^{T}$ 表示一条样本数据有 $d$ 个属性，我们的目标是寻找 $d$ 维列向量 $w$ 和常数 $b$ ，使得模型

\begin{matrix} (1) & f (x_{i}) = w^{T} x_{i} + b \end{matrix}

所得的预测值与真实值

y_{i}

尽可能接近。

我们可以采用一些小策略把式(2)统一用矩阵和向量表示，把常数 $b$ 放入权值向量 $w$ 得到一个 $(d + 1)$ 维的权值向量 $\hat{w} = (w; b)$ ，同时在每个样本实例中添加第 $(d + 1)$ 个属性，置为 $1$ ， $\hat{x_{i}} = (x_{i}; 1)$ 。将样本所有属性排列为矩阵可以得到：

X = [\begin{matrix} \hat{x_{1}} \\ \hat{x_{2}} \\ ⋮ \\ \hat{x_{m}} \end{matrix}]

令

y = (y_{1}, y_{2} \dots y_{m})^{T}

，同一元线性回归中最小化预测值与真实值误差平方和一样，在多元回归中我们要最小化

| | y - X \hat{w} | |^{2}

即

w^{*} = \arg_{\hat{w}} min (y - X \hat{w})^{T} (y - X \hat{w})

此处将最小化的目标函数视为

\hat{w}

的“单变量”函数，令

h (\hat{w}) = (y - X \hat{w})^{T} (y - X \hat{w})

，求它的最小值只需其对

\hat{w}

求导，导数值为 0 时

\hat{w}

的取值即为所求。

\begin{aligned} \frac{\partial h (\hat{w})}{\partial \hat{w}} & = \frac{\partial [(y - X \hat{w})^{T} (y - X \hat{w})]}{\partial \hat{w}} \\ (2) & = 2 \frac{\partial (y - X \hat{w})^{T}}{\partial \hat{w}} (y - X \hat{w}) \\ (3) & = 2 \frac{\partial y^{T}}{\partial \hat{w}} (y - X \hat{w}) - 2 \frac{\partial (X \hat{w})^{T}}{\partial \hat{w}} (y - X \hat{w}) \\ (4) & = 0 - 2 X^{T} (y - X \hat{w}) \\ (5) & = 2 X^{T} (X \hat{w} - y) \end{aligned}

上述步骤(2)运用了链接博文的式(9)：
多元线性回归中的公式推导

步骤(3)简单求导的拆分
步骤(4)第一项中

y^{T}

与

\hat{w}

无关，所以求导为0；第二项运用了链接博文的式(6)：
多元线性回归中的公式推导

最后我们令式(5)为0，此时的 $\hat{w}$ 即为所求 $w^{*}$

\begin{array}{rcl} ∵ 2 X^{T} (X \hat{w} - y) = 2 X^{T} X \hat{w} - 2 X^{T} y = 0 \\ ∴ X^{T} X \hat{w} = X^{T} y \\ ∴ \hat{w} = (X^{T} X)^{- 1} X^{T} y \\ ∴ w^{*} = (X^{T} X)^{- 1} X^{T} y \end{array}

至此，权值向量被样本集中的数据估计出来了，完成了学习任务，当然此处仍有有待解决的问题：方阵 $X^{T} X$ 只有在满秩时才可逆，而这一条件并非所有学习任务均能满足，可以引进正则化等方法来选择非满秩时多解的 $\hat{w}$ 。这一点以后再写。

多元线性回归中的公式推导

相关推荐