深度学习调参技巧

1. 初始化非常重要

优先Xavier, hekaiming

深度学习调参技巧

调了几天的batch, normalization没啥用, 一步初始化提高了50个点....

2.学习率

大学习率, 跑的快, 那么在同样的时间就可以调更多的参数, 一般用warm up, 只要不爆炸, 可以尽可能的大

3.batch

先学习率, 再batch, 因为batch增大, 建议lr相应增大倍数

4.normalization

batch norm在大batch推荐

小batch推荐group norm 但是也不一样, 可以实验进行验证