第六讲-训练神经网络上--课时15--批量归一化

batch norm

“you want unit gaussian activations? Just make them so”

卷积神经网络由于需要保留空间信息，对所有batch使用同样的均值和方差。

普通全连接网络各个batch使用各自的mean和variance

gamma和beta是为了添加噪声，具有正则化的作用，它们是学习得到的参数。

gamma和bata使得更flexible，比如tanh中，需要控制不进入saturated区域

第六讲-训练神经网络上--课时15--批量归一化

gamma和beta取值如下时，可以使得batch norm等于没有发生。即Identity function

实际训练种，不会得到Identity function

第六讲-训练神经网络上--课时15--批量归一化

------

test time:

batch norm使用固定的均值和方差（训练时，各个batch的平均）

----------------------------------------------------------------------

hyper parameter时，coarse to fine 只迭代几个epoch即可选取超参数。

----------------------------------------------------------------------

2012年论文认为random search优于 grid search

本课程推荐random search (log space)

第六讲-训练神经网络上--课时15--批量归一化

-----------------------------------------------------------------------

第六讲-训练神经网络上--课时15--批量归一化

记录参数更新比例，以决定要不要继续更新

第六讲-训练神经网络上--课时15--批量归一化