Lasso回归算法: 坐标轴下降法与最小角回归法小结

原文链接

\qquad线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归。

1. 回顾线性回归

\qquad首先我们简要回归下线性回归的一般形式:hθ(x)=Xθh_\theta(x)=X\theta

\qquad需要极小化的损失函数是: J(θ)=12(XθY)T(XθY)J(\theta) = \dfrac{1}{2}(X\theta-Y)^T(X\theta-Y)

\qquad如果用梯度下降法求解,则每一轮θ\theta迭代的表达式是:
θ=θαXT(XθY) \theta = \theta - \alpha X^T(X\theta-Y)
\qquad其中α\alpha为步长。

\qquad如果用最小二乘法,则θ\theta的结果是:
XTXθXTY=0θ=(XTX)1XTY X^TX\theta-X^TY=0 \Rightarrow \theta = (X^TX)^{-1}X^TY

2. 回顾Ridge回归

\qquad由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归、脊回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α\alpha。损失函数表达式如下:
J(θ)=12(XθY)T(XθY)+12αθ22 J(\theta) = \dfrac{1}{2}(X\theta-Y)^T(X\theta-Y) + \dfrac{1}{2}\alpha||\theta||_2^2
\qquad其中α\alpha为常数系数,需要进行调优。θ2||\theta||_2为L2范数。 L2范数是指向量中各元素的平方和然后开根

\qquadRidge回归的解法和一般线性回归大同小异。如果采用梯度下降法,则每一轮θ\theta迭代的表达式是:
θ=θ(βXT(XθY)+αθ) \theta = \theta - (\beta X^T(X\theta-Y) + \alpha\theta)
\qquad其中β\beta为步长。

\qquad如果用最小二乘法,则θ\theta的结果是:
(XTXθXTY)+αθ=0θ=(XTX+αE)1XTY (X^TX\theta-X^TY) + \alpha \theta=0 \Rightarrow \theta = (X^TX + \alpha E)^{-1}X^TY
\qquad其中EE为单位矩阵。

\qquadRidge回归在不抛弃任何一个变量的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但这会使得模型的变量特别多,模型解释性差。有没有折中一点的办法呢?即又可以防止过拟合,同时克服Ridge回归模型变量多的缺点呢?有,这就是下面说的Lasso回归。

3. 初识Lasso回归

\qquadLasso回归有时也叫做线性回归的L1正则化,和Ridge回归的主要区别就是在正则化项,Ridge回归用的是L2正则化,而Lasso回归用的是L1正则化。Lasso回归的损失函数表达式如下: 
J(θ)=12n(XθY)T(XθY)+αθ1 J(\theta) = \dfrac{1}{2n}(X\theta-Y)^T(X\theta-Y) + \alpha||\theta||_1
\qquad其中nn为样本个数,α\alpha为常数系数,需要进行调优。θ1||\theta||_1为L1范数。

\qquadLasso回归使得一些系数变小,甚至还是一些绝对值较小的系数直接变为0,因此特别适用于参数数目缩减与参数的选择,因而用来估计稀疏参数的线性模型。

\qquad但是Lasso回归有一个很大的问题,导致我们需要把它单独拎出来讲,就是它的损失函数不是连续可导的,由于L1范数用的是绝对值之和,导致损失函数有不可导的点。也就是说,我们的最小二乘法,梯度下降法,牛顿法与拟牛顿法对它统统失效了。那我们怎么才能求有这个L1范数的损失函数极小值呢?

\qquadOK,本章主角,两种全新的求极值解法坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression, LARS)该隆重出场了。

4. 用坐标轴下降法求解Lasso回归

\qquad坐标轴下降法顾名思义,是沿着坐标轴的方向去下降,这和梯度下降不同。梯度下降是沿着梯度的负方向下降。不过梯度下降和坐标轴下降的共性就都是迭代法,通过启发式的方式一步步迭代求解函数的最小值。

\qquad坐标轴下降法的数学依据主要是这个结论(此处不做证明):一个可微的凸函数J(θ)J(\theta), 其中θ\thetan1n*1的向量,即有nn个维度。如果在某一点θ\overline{\theta},使得J(θ)J(\theta)在每一个坐标轴θi(i=1,2,,n)\overline{\theta}_i(i=1,2,\dots,n)上都是最小值,那么J(θi)J(\overline{\theta}_i)就是一个全局的最小值。

\qquad于是我们的优化目标就是在θ\thetann个坐标轴上(或者说向量的方向上)对损失函数做迭代的下降,当所有的坐标轴上的θi(i=1,2,,n)\theta_i(i=1,2,\dots,n)都达到收敛,我们的损失函数最小,此时的θ\theta即为我们要求的结果。

\qquad下面我们看看具体的算法过程:

\qquad 1. 首先,我们把θ\theta向量随机取一个初值。记为θ(0)\theta^{(0)} ,上面的括号里面的数字代表我们迭代的轮数,当前初始轮数为0。
\qquad 2. 对于第kk轮的迭代。我们从θ1(k)\theta_1^{(k)}开始,到θn(k)\theta_n^{(k)}为止,依次求θi(k)\theta_i^{(k)}。而θi(k)\theta_i^{(k)}的表达式如下:
θi(k)arg maxθi J(θ1(k),θ2(k),,θi1(k),θi,θi+1(k1),,θn(k1)) \theta_i^{(k)} \in \underbrace{arg\ max}_{\theta_i}\ J(\theta_1^{(k)},\theta_2^{(k)},\dots,\theta_{i-1}^{(k)},\theta_{i},\theta_{i+1}^{(k-1)},\dots,\theta_{n}^{(k-1)})
\qquad也就是说θi(k)\theta_i^{(k)}是使J(θ1(k),θ2(k),,θi1(k),θi,θi+1(k1),,θn(k1))J(\theta_1^{(k)},\theta_2^{(k)},\dots,\theta_{i-1}^{(k)},\theta_{i},\theta_{i+1}^{(k-1)},\dots,\theta_{n}^{(k-1)})最小化时候的θi\theta_i值,此时J(θ)J(\theta)只有θi(k)\theta_i^{(k)}是变量,其余均为常量,因此最小值容易通过求导求得。

\qquad如果上面这个式子不好理解,我们具体一点,在第kk轮,θ\theta
向量的nn个维度的迭代式如下:
θ1(k)arg maxθ1 J(θ1,θ2(k1),,θn(k1)) \theta_1^{(k)} \in \underbrace{arg\ max}_{\theta_1}\ J(\theta_1,\theta_2^{(k-1)},\dots,\theta_n^{(k-1)})
θ2(k)arg maxθ2 J(θ1(k),θ2,θ3(k1),,θn(k1)) \theta_2^{(k)} \in \underbrace{arg\ max}_{\theta_2}\ J(\theta_1^{(k)},\theta_2,\theta_3^{(k-1)},\dots,\theta_n^{(k-1)})
\dots
θn(k)arg maxθn J(θ1(k),θ2(k),θ3(k),,θn) \theta_n^{(k)} \in \underbrace{arg\ max}_{\theta_n}\ J(\theta_1^{(k)},\theta_2^{(k)},\theta_3^{(k)},\dots,\theta_n)

\qquad 3. 检查θ(k)\theta^{(k)}向量和θ(k1)\theta^{(k-1)}向量在各个维度上的变化情况,如果在所有维度上变化都足够小,那么θ(k)\theta^{(k)}即为最终结果,否则转入2,继续第k+1k+1轮的迭代。

\qquad以上就是坐标轴下降法的求极值过程,可以和梯度下降做一个比较:

\qquad a) 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索 ,固定其他的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值

\qquad b) 坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代,一个周期的一维搜索迭代过程相当于一个梯度下降的迭代

\qquad c) 梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。

\qquad d) 两者都是迭代方法,且每一轮迭代,都需要O(mnmn)的计算量(mm为样本数,nn为系数向量的维度)

5. 用最小角回归法求解Lasso回归

\qquad第四节介绍了坐标轴下降法求解Lasso回归的方法,此处再介绍另一种常用方法, 最小角回归法(Least Angle Regression, LARS)。

5.1 前向选择(Forward Selection)算法

\qquad前向选择算法的原理是是一种典型的贪心算法。要解决的问题是对于:

\qquad Y=XθY=X\theta 这样的线性关系,如何求解系数向量θ\theta的问题。其中YYm1m*1的向量,XXmnm*n的矩阵,θ\thetan1n*1的向量。mm为样本数量,nn为特征维度。

\qquad把矩阵XX看做nnm1m*1的向量Xi(i=1,2,,n)X_i(i=1,2,\dots,n),在YYXX变量Xi(i=1,2,,n)X_i(i=1,2,\dots,n)中,选择和目标YY最为接近(余弦距离最大)的一个变量XkX_k,用XkX_k来逼近YY,得到下式:
Y=Xkθk \overline{Y} = X_k\theta_k
\qquad其中θk=<Xk,Y>Xk22\theta_k = \dfrac{<X_k,Y>}{||X_k||_2^2}

\qquad即:Y\overline{Y}YYXkX_k上的投影。那么,可以定义残差(residual): Yres=YYY_{res}=Y - \overline{Y}。由于是投影,所以很容易知道YresY_{res}XkX_k是正交的。再以YresY_{res}为新的因变量,去掉XkX_k后,剩下的自变量的集合Xi(i=1,2,3,,k1,k+1,,n)X_i(i=1,2,3,\dots,k-1,k+1,\dots,n)为新的自变量集合,重复刚才投影和残差的操作,直到残差为0,或者所有的自变量都用完了,才停止算法
Lasso回归算法: 坐标轴下降法与最小角回归法小结
\qquadXX只有2维时,例子如上图,和YY最接近的是X1X_1,首先在X1X_1上面投影,残差如上图长虚线。此时X1θ1X_1\theta_1模拟了YYθ1\theta_1模拟了θ\theta(仅仅模拟了一个维度)。接着发现最接近的是X2X_2,此时用残差YresY_{res}接着在X2X_2投影,残差如图中短虚线。由于没有其他自变量了,此时X1θ1+X2θ2X_1\theta_1+X_2\theta_2模拟了YY,对应的模拟了两个维度的θ\theta即为最终结果,此处θ\theta计算设计较多矩阵运算,这里不讨论。

\qquad此算法对每个变量只需要执行一次操作,效率高,速度快。但也容易看出,当自变量不是正交的时候,由于每次都是在做投影,所有算法只能给出一个局部近似解。因此,这个简单的算法太粗糙,还不能直接用于我们的Lasso回归。

5.2 前向梯度(Forward Stagewise)算法

\qquad前向梯度算法和前向选择算法有类似的地方,也是在YYXX变量Xi(i=1,2,,n)X_i(i=1,2,\dots,n)中,选择和目标YY最为接近(余弦距离最大)的一个变量XkX_k,用XkX_k来逼近YY,但是前向梯度算法不是粗暴的用投影,而是每次在最为接近的自变量XtX_t的方向移动一小步,然后再看残差YresY_{res}和哪个Xi(i=1,2,,n)X_i(i=1,2,\dots,n)最为接近。此时我们也不会把XtX_t去除,因为我们只是前进了一小步,有可能下面最接近的自变量还是XtX_t。如此进行下去,直到残差YresY_{res}减小到足够小,算法停止
Lasso回归算法: 坐标轴下降法与最小角回归法小结
\qquadXX只有2维时,例子如上图,和YY最接近的是X1X_1,首先在X1X_1上面走一小段距离,此处ϵ\epsilon为一个较小的常量,发现此时的残差还是和X1X_1最接近。那么接着沿X1X_1走,一直走到发现残差不是和X1X_1最接近,而是和X2X_2最接近,此时残差YresY_{res}如上图长虚线。接着沿着X2X_2走一小步,发现残差此时又和X1X_1最接近,那么开始沿着X1X_1走,走完一步后发现残差为0,那么算法停止。此时YY由刚才所有的所有步相加而模拟,对应的算出的系数θ\theta即为最终结果。此处θ\theta计算设计较多矩阵运算,这里不讨论。

\qquad当算法在ϵ\epsilon很小的时候,可以很精确的给出最优解,当然,其计算的迭代次数也是大大的增加。和前向选择算法相比,前向梯度算法更加精确,但是更加复杂。

\qquad有没有折中的办法可以综合前向梯度算法和前向选择算法的优点,做一个折中呢?有!这就是终于要出场的最小角回归法。

5.3 最小角回归(Least Angle Regression, LARS)算法

\qquad最小角回归法对前向梯度算法和前向选择算法做了折中,保留了前向梯度算法一定程度的精确性,同时简化了前向梯度算法一步步迭代的过程。具体算法是这样的:

\qquad首先,还是找到与因变量YY最接近或者相关度最高的自变量XkX_k,使用类似于前向梯度算法中的残差计算方法,得到新的目标YresY_{res},此时不用和前向梯度算法一样小步小步的走。而是直接向前走直到出现一个XtX_t,使得XtX_tYresY_{res}相关度XkX_kYresY_{res}相关度是一样的,此时残差YresY_{res}就在XtX_tXkX_k的角平分线方向上,此时我们开始沿着这个残差角平分线走,直到出现第三个特征XpX_pYresY_{res}的相关度足够大的时候,即XpX_p到当前残差YresY_{res}的相关度和θt\theta_tθk\theta_kYresY_{res}的一样。将其也叫入到YY的逼近特征集合中,并用YY的逼近特征集合的共同角分线,作为新的逼近方向。以此循环,直到YresY_{res}足够的小,或者说所有的变量都已经取完了,算法停止。此时对应的系数θ\theta即为最终结果。
Lasso回归算法: 坐标轴下降法与最小角回归法小结
\qquadθ\theta只有2维时,例子如上图,和YY最接近的是X1X_1,首先在X1X_1上面走一段距离,一直到残差在X1X_1X2X_2的角平分线上,此时沿着角平分线走,直到残差最够小时停止,此时对应的系数β\beta即为最终结果。此处θ\theta计算设计较多矩阵运算,这里不讨论。

\qquad最小角回归法是一个适用于高维数据的回归算法,

\qquad其主要的优点有:

\qquad 1)特别适合于特征维度nn远高于样本数mm的情况。

\qquad 2)算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样

\qquad 3)可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用

\qquad主要的缺点是:

\qquad由于LARS的迭代方向是根据目标的残差而定,所以该算法对样本的噪声极为敏感。

6. 总结

\qquadLasso回归是在ridge回归的基础上发展起来的,如果模型的特征非常多,需要压缩,那么Lasso回归是很好的选择。一般的情况下,普通的线性回归模型就够了。