【机器学习】坐标下降法(Coordinate descent)

coordinate-wise minimization(坐标朝向最小)

coordinate-wise minimization介绍的是坐标下降法的理论依据。

问题的描述:给定一个可微的凸函数 f:RnRf : \mathbb{R}^{n} \rightarrow \mathbb{R},如果在某一点 xx,使得 f(x)f(x) 在每一个坐标轴上都是最小值,那么 f(x)f(x) 是不是一个全局的最小值。

形式化的描述为:是不是 f(x+dei)f(x)f(x + d * e_{i}) \geqslant f(x) 对于所有的 d,id, i 都有 f(x)=minzf(z)f(x) = min_{z}f(z) ?

这里的 ei=(0,...,1,...,0)Rne_{i} = (0, ... , 1, ..., 0) \in \mathbb{R}^{n} 代表第 ii 个标准基向量。

答案为成立。

【机器学习】坐标下降法(Coordinate descent)

这是因为:

【机器学习】坐标下降法(Coordinate descent)

但是问题来了,如果对于凸函数 ff,若不可微该会怎样呢?

【机器学习】坐标下降法(Coordinate descent)

答案为不成立,上面的图片就给出了一个反例。

那么同样的问题,现在 f(x)=g(x)+i=1nhi(xi)f(x) = g(x) + \sum_{i=1}^{n}h_{i}(x_{i}),其中 gg 是可微的凸函数,每一个 hih_{i} 都是凸的?这其实就是Lasso回归的目标函数

答案为成立。

【机器学习】坐标下降法(Coordinate descent)

证明如下,对每一个 yy:

【机器学习】坐标下降法(Coordinate descent)

  • 给定一个可微的凸函数 f:RnRf:\mathbb{R}^{n} \rightarrow \mathbb{R},如果在某一点 xx,使得 f(x)f(x) 在每一个坐标轴上都是最小值,那么 f(x)f(x) 就是一个全局的最小值。

坐标下降(Coordinate descent)

坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行线性搜索(线性搜索是不需要求导数的),通过循环使用不同的坐标方法来达到目标函数的局部极小值

算法过程

假设目标函数是求解 f(x)f(x) 的极小值,其中 x=(x1,x2,...,xn)x = (x_{1}, x_{2}, ... , x_{n}) 是一个 nn 维的向量,我们从初始点 x0x^{0} 开始(x0x^{0} 是我们猜想的一个初值)对 kk 进行循环:

【机器学习】坐标下降法(Coordinate descent)

相当于每次迭代都只是更新 xx 的一个维度,即把该维度当做变量,剩下的 n1n-1 个维度当作常量,通过最小化 f(x)f(x) 来找到该维度对应的新的值。坐标下降法就是通过迭代地构造序列 x0,x1,x2,...x^{0}, x^{1}, x^{2}, ... 来求解问题,即最终点收敛到期望的局部极小值点。通过上述操作,显然有:

【机器学习】坐标下降法(Coordinate descent)


证明如下:

k=0k=0 时,对应的 f(x)f(x) 的值为 f(x0)=f(x10,x20,...,xn0)f(x^{0}) = f(x_{1}^{0}, x_{2}^{0}, ... , x_{n}^{0})

由于 x11=argminf(x1,x20,...,xn0)x_{1}^{1} = argminf(x_{1}, x_{2}^{0}, ... , x_{n}^{0}) ,所以 f(x11,x20,...,xn0)f(x10,x20,...,xn0)=f(x0)f(x_{1}^{1}, x_{2}^{0}, ... , x_{n}^{0}) \leq f(x_{1}^{0}, x_{2}^{0}, ... , x_{n}^{0}) = f(x^{0}),以此类推:

所以 f(x11,x21,...,xn0)f(x11,x20,...,xn0)f(x10,x20,...,xn0)=f(x0)f(x_{1}^{1}, x_{2}^{1}, ... , x_{n}^{0}) \leq f(x_{1}^{1}, x_{2}^{0}, ... , x_{n}^{0}) \leq f(x_{1}^{0}, x_{2}^{0}, ... , x_{n}^{0})= f(x^{0})

所以 f(x1)=f(x11,x21,...,xn1)...f(x11,x21,...,xn0)f(x11,x20,...,xn0)f(x10,x20,...,xn0)=f(x0))f(x^{1}) = f(x_{1}^{1}, x_{2}^{1}, ... , x_{n}^{1}) \leq ... f(x_{1}^{1}, x_{2}^{1}, ... , x_{n}^{0}) \leq f(x_{1}^{1}, x_{2}^{0}, ... , x_{n}^{0}) \leq f(x_{1}^{0}, x_{2}^{0}, ... , x_{n}^{0}) = f(x^{0}) )

同理可得 f(x2)f(x1)f(x0)f(x^{2}) \leq f(x^{1}) \leq f(x^{0}),命题得证。


相比梯度下降法而言,坐标下降法不需要计算目标函数的梯度在每步迭代中仅需求解一维搜索问题,所以对于某些复杂的问题计算较为简便。但如果目标函数不光滑的话,坐标下降法可能会陷入非驻点。

流程总结:

  1. 首先,我们把 xx 向量随机取一个初值。记为 x0x^{0},上面的括号里面的数字代表我们迭代的轮数,当前初始轮数为0。
  2. 对于第 kk 轮的迭代。我们从 x1kx_{1}^{k} 开始,到 xnkx_{n}^{k} 为止,依次求 xikx_{i}^{k}xikx_{i}^{k} 的计算表达式如上文所描述。
  3. 检查 xkx^{k} 向量和 xk1x^{k-1} 向量在各个维度上的变化情况,如果在所有维度上变化都足够小,那么 xkx^{k} 即为最终结果,否则转入第二步,继续第 k+1k+1 轮的迭代。

小结

关于坐标下降法,有几点需要注意的:

  1. 坐标下降的顺序是任意的,不一定非得按照从 x1...xnx^{1} ... x^{n} 的顺序来,可以是从 11nn 的任意排列。
  2. 坐标下降的关键在于一次一个地更新,所有的一起更新有可能会导致不收敛。
  3. 坐标上升法和坐标下降法的本质一样,只不过目标函数成为求 f(x)f(x) 的极大值了,每次迭代过程 minmin 变成 maxmax 了。

坐标轴下降法的求极值过程,可以和梯度下降做一个比较:

  1. 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索 ,固定其他的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值。
  2. 坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代,一个周期的一维搜索迭代过程相当于一个梯度下降的迭代。
  3. 梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。
  4. 两者都是迭代方法,且每一轮迭代,都需要 O(mn)的计算量(m为样本数,n为系数向量的维度)

 

参考文章

Lasso回归算法: 坐标轴下降法与最小角回归法小结

机器学习笔记——简述坐标下降法

坐标下降法(Coordinate descent)