深度模型中的优化与参数初始化方法

它们之间的关系如下：

对于如何选择没有达成共识，但结果表明具有自适应学习率的算法族表现得相当鲁邦，不分伯仲。目前，最流行且使用很高的优化算包括SGD、具动量的SGD、RMSProp、具有动量的RMSProp、AdaDelta和Adam。对哪个熟悉用哪个以便调节超参数。

Xavier初始化方法用的比较多。