目标函数

Lasso相当于带有L1正则化项的线性回归。先看下目标函数：RSS(w)+λ∥w∥1=∑Ni=0(yi−∑Dj=0wjhj(xi))2+λ∑Dj=0|wj|
这个问题由于正则化项在零点处不可求导，所以使用非梯度下降法进行求解，如坐标下降法或最小角回归法。

坐标下降法

本文介绍坐标下降法。
坐标下降算法每次选择一个维度进行参数更新，维度的选择可以是随机的或者是按顺序。
当一轮更新结束后，更新步长的最大值少于预设阈值时，终止迭代。

下面分为两部求解

\partial \partial w j R S S (w) = - 2 \sum i = 1 N h j (x i) (y i \sum j = 0 D w j h j (x i)) = - 2 \sum i = 1 N h j (x i) (y i - \sum k \neq j w k h k (x i) - w j h j (x i)) = - 2 \sum i = 1 N h j (x i) (y i - \sum k \neq j w k h k (x i)) + 2 w j \sum i = 1 N h j (x i) 2

下面做一下标记化简
ρj=∑Ni=1hj(xi)(yi−∑k≠jwkhk(xi))
zj=∑Ni=1hj(xi)2
上式化简为∂∂wjRSS(w)=−2ρj+2wjzj

次梯度方法(subgradient method)是传统的梯度下降方法的拓展，用来处理不可导的凸函数。
Lasso回归的坐标下降法推导

λ \partial w j | w j | = ⎧ ⎩ ⎨ ⎪ ⎪ - λ [- λ, λ] λ w j < 0 w j = 0 w j > 0

λ \partial w j [lasso cost] = 2 z j w j - 2 ρ j + ⎧ ⎩ ⎨ ⎪ ⎪ - λ [- λ, λ] λ w j < 0 w j = 0 w j > 0 = ⎧ ⎩ ⎨ ⎪ ⎪ 2 z j w j - 2 ρ j - λ [- 2 ρ j - λ, - 2 ρ j + λ] 2 z j w j - 2 ρ j + λ w j < 0 w j = 0 w j > 0

要想获得最有解，令

λ∂wj[lasso cost]=0。
解得，

w^j = ⎧ ⎩ ⎨ ⎪ ⎪ (ρ j + λ / 2) / z j 0 (ρ j - λ / 2) / z j ρ j < - λ / 2 ρ j in [- λ / 2, λ / 2] ρ j > λ / 2

预计算zj=∑Ni=1hj(xi)2
初始化参数w（全0或随机）
循环直到收敛:

for j = 0,1,…D
ρj=∑Ni=1hj(xi)(yi−∑k≠jwkhk(xi))
update wj
选择变化幅度最大的维度进行更新

随机变量X∼Laplace(μ,b)，其中μ是位置参数，b>0是尺度参数。
概率密度函数为
f(x|μ,b)=12bexp(−|x−μ|b)

假设ϵi∼N(0,σ2)，wi∼Laplace(0,1λ)

arg max w L (w) = l i k e l i h o o d \times p r i o r = P (x, y | w) \times P (w) = ln \prod i = 1 n 1 σ 2 π - - \sqrt exp (- 12 (y i - x i w T σ) 2) \cdot \prod j = 1 d λ 2 exp (- λ | w j |) = ln \prod n + ln \prod d = \sum n ln + \sum d ln = \sum n ln exp (- 12 (y i - x i w T σ) 2) - \sum n ln σ 2 π - - \sqrt + \sum d ln exp (- λ | w j |) - \sum d ln 2 λ = \sum n - 12 (y i - x i w T σ) 2 - \sum n ln σ 2 π - - \sqrt + \sum d (- λ | w j |) - \sum d ln 2 λ = - 1 2 σ 2 \sum n (y i - x i w T) 2 - λ \sum d | w j | - \sum n ln σ 2 π - - \sqrt - \sum d ln 2 λ = - 1 2 σ 2 \sum n (y i - x i w T) 2 - λ \sum d | w j | + constant

等价于

arg min w f (w) = \sum i = 1 n (y i - x i w T) 2 + λ \sum j = 1 d | w j | = | | y - X w T | | 22 + λ | | w | | 1