深度学习调参技巧
1. 初始化 非常重要
优先Xavier, hekaiming
调了几天的batch, normalization没啥用, 一步初始化提高了50个点....
2.学习率
大学习率, 跑的快, 那么在同样的时间就可以调更多的参数, 一般用warm up, 只要不爆炸, 可以尽可能的大
3.batch
先学习率, 再batch, 因为batch增大, 建议lr相应增大倍数
4.normalization
batch norm在大batch推荐
小batch推荐group norm 但是也不一样, 可以实验进行验证
参考:https://zhuanlan.zhihu.com/p/24720954