【ML&DL】【skimming】Global Optimality in Neural Network Training

补了一下2017年的CVPR,Global Optimality in Neural Network Training[1]

论文一览:
【ML&DL】【skimming】Global Optimality in Neural Network Training

痛点

深度学习取得了很大的成功,但是对其成功原因的数学解释却还是一个难点。很大一个原因是对深度网络的参数学习是一个非凸的过程。而优化算法有陷入非global minima的可能。凸优化问题的局部极小值也是全局极小值,因此学习问题的凸公式通常更可取,因为它们有助于分析学习算法的性质。

传统的学习算法如线性回归,SVM的凸优化可以理解为如下:

【ML&DL】【skimming】Global Optimality in Neural Network Training

其中l为损失函数,Y为真实label,Φ(X,S)为输出的预测,X为需要学习的模型参数,S为模型输入。而Θ(x)为正则化方程。凸优化需要这里的损失函数和正则化方程在X上是凸的。

然而实际上有许多学习算法,尤其是那些试图直接从数据中学习特征的适当表示的算法,比如PCB,张量分解,也包括Deep learning,需要解决的是非凸的优化问题。

如下图

【ML&DL】【skimming】Global Optimality in Neural Network Training

Φ是自定义的凸破坏映射,比如深度网络中的多层Linear和Non-Linear层结构。

当前应对这种非凸问题的方法,包括(但不限于)交替最小化,梯度下降,随机梯度下降,块坐标下降,反向传播和拟牛顿法等。这些方法能够带我们收敛到模型的临界点集。这些临界点包含了global minima,local minima,saddle point和saddle plateaus,如图下:

【ML&DL】【skimming】Global Optimality in Neural Network Training

实验观察的经验表明,当网络规模足够大且使用ReLU非线性时,所有局部最小值可能是全局的,但目前尚无严格的理论为这些实验观察到的现象提供精确的数学解释。而本文则证明了这一点,文章展示了当网络足够大,且Φ和Θ是相同度数的正齐次函数的总和,任何局部最小值(使其某些项为零)也是全局最小值。任何局部最小值是非凸因式分解问题的全局最小值,并且如果非凸因式分解问题是通过足够大的因数完成的,那么从任何可行的初始化中,总有可能使用纯局部下降算法找到全局最小化器。我们所熟知的ReLU和maxpooling是正齐次的,而sigmoid则不是,这可以接受为什么ReLU与maxpooling一起使用是带来的增益。

另外文章还指出,平衡网络映射和正则化函数之间的正齐次性程度对于防止现代神经网络体系结构的损失表面中出现非最优的局部最小值至关重要,这为网络体系结构和正则化器的设计提供了指导。

参考文献

[1] Haeffele B D, Vidal R. Global optimality in neural network training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7331-7339.