CS231 笔记

  1. SGD with momentum有两种写法 效果等价CS231 笔记
  2. Adam中的bias  correction项的存在是出于以下考虑:first_momentum以及second_momentum都初始化为0,为了仅在开始的几次迭代中增大他们的影响,增加了一个参数为t的correction,值得注意的是,t的值随时间增大,也就是说放大效果越来越弱。CS231 笔记