深度模型中的优化与参数初始化方法
基本的优化算法
- Batch GD
- SGD
- SGD with 动量
- SGD with Nesterov动量
自适应学习率算法
- AdaGrad
- RMSProp
- RMSProp with Nesterov
- Adam: Adaptive Moments
比较与选择
它们之间的关系如下:
对于如何选择没有达成共识,但结果表明具有自适应学习率的算法族表现得相当鲁邦,不分伯仲。目前,最流行且使用很高的优化算包括SGD、具动量的SGD、RMSProp、具有动量的RMSProp、AdaDelta和Adam。对哪个熟悉用哪个以便调节超参数。
参数初始化方法
Xavier初始化方法用的比较多。