深度学习调参技巧

1. 初始化  非常重要

优先Xavier, hekaiming

深度学习调参技巧

调了几天的batch, normalization没啥用, 一步初始化提高了50个点....

2.学习率

大学习率, 跑的快, 那么在同样的时间就可以调更多的参数, 一般用warm up, 只要不爆炸, 可以尽可能的大

3.batch

先学习率, 再batch, 因为batch增大, 建议lr相应增大倍数

4.normalization

batch norm在大batch推荐

小batch推荐group norm  但是也不一样, 可以实验进行验证

参考:https://zhuanlan.zhihu.com/p/24720954