为什么使用归一化
对一sigmoid的函数来说,处在边角位置的点更新慢,并且离散度高不利于聚合。
Nomalization将输入的值控制在有效的范围之内。得到以0为均值,1为方差的值。
不进行归一化的化,loss函数求解梯度左图较比之右图更加的曲折。
pytorch实现归一化
不同Norm选取方式
蓝色为一次选取的一个Norm。
BN
对于三个通道作为BN,z为BN公式
pytorch实现
2d的BN大小为16
在测试的时候,μ,σ为全局的而非batch的;又由于有没有后向传播,所以没有β,γ的更新
使用BN对比
优势
- 收敛速度加快
- 更得到更好的解
- 主要的优势是更加的稳定