第六讲-训练神经网络上--课时15--批量归一化

batch norm

“you want unit gaussian activations? Just make them so”

卷积神经网络由于需要保留空间信息,对所有batch使用同样的均值和方差。

普通全连接网络各个batch使用各自的mean和variance

第六讲-训练神经网络上--课时15--批量归一化

gamma和beta是为了添加噪声,具有正则化的作用,它们是学习得到的参数。

gamma和bata使得更flexible,比如tanh中,需要控制不进入saturated区域

第六讲-训练神经网络上--课时15--批量归一化

gamma和beta取值如下时,可以使得batch norm等于没有发生。即Identity function

实际训练种,不会得到Identity function

第六讲-训练神经网络上--课时15--批量归一化

------

test time:

batch norm使用固定的均值和方差(训练时,各个batch的平均)

----------------------------------------------------------------------

hyper parameter时,coarse to fine  只迭代几个epoch即可选取超参数。

----------------------------------------------------------------------

2012年论文认为random search优于 grid search

本课程推荐random search (log space)

第六讲-训练神经网络上--课时15--批量归一化

-----------------------------------------------------------------------

第六讲-训练神经网络上--课时15--批量归一化

第六讲-训练神经网络上--课时15--批量归一化

第六讲-训练神经网络上--课时15--批量归一化

记录参数更新比例,以决定要不要继续更新

第六讲-训练神经网络上--课时15--批量归一化