第六讲-训练神经网络上--课时15--批量归一化
batch norm
“you want unit gaussian activations? Just make them so”
卷积神经网络由于需要保留空间信息,对所有batch使用同样的均值和方差。
普通全连接网络各个batch使用各自的mean和variance
gamma和beta是为了添加噪声,具有正则化的作用,它们是学习得到的参数。
gamma和bata使得更flexible,比如tanh中,需要控制不进入saturated区域
gamma和beta取值如下时,可以使得batch norm等于没有发生。即Identity function
实际训练种,不会得到Identity function
------
test time:
batch norm使用固定的均值和方差(训练时,各个batch的平均)
----------------------------------------------------------------------
hyper parameter时,coarse to fine 只迭代几个epoch即可选取超参数。
----------------------------------------------------------------------
2012年论文认为random search优于 grid search
本课程推荐random search (log space)
-----------------------------------------------------------------------
记录参数更新比例,以决定要不要继续更新