02. 改善深层神经网络：超参数调优、正则化以及优化

第三周超参数调优、Batch正则化和程序框架

超参数
（1）常见参数： $\alpha, \beta, \beta_1, \beta_2, \epsilon$ ，层数，每层单元数，学习率衰减，mini-batch规模
（2）重要性排名：a. $\alpha$ ， b. $\beta$ ，每层单元数，mini-batch规模，c. 层数，学习率衰减
尝试随机值
由粗糙到精细策略

随机选择超参数
超参数适应的规模
使用对数数轴
代码： $r = -4*np.random.rand()$
$\alpha=10^{r}$
指数加权平均的超参
$\beta = 0.9, \cdots, 0.999$ ，因此不能使用线性随机均匀取值。因此考虑 $1-\beta = 0.1, \cdots, 0.001$ ，然后采用对数随机均匀取值。

将Batch归一化加入到神经网络中
（1）神经网络示意图

（2）计算路径

（3）代码tf.nn.batch_normalization
mini-batches中的应用

说明：因为后期需要用 $\beta$ 和 $\gamma$ 对 $z^{(i)}$ 进行重新缩放，所以不需再学习 $b^{[l]}$
梯度下降法的实现
对于 $t=1, \cdots, num$ mini-batches
在每个mini-batch $X^{\{i\}}$ 中计算正向传播（用 $\widetilde{z}^{[l]}$ 代替 $z^{[l]}$ ）
计算反向传播 $dw^{[l]}, d\beta^{[l]}, d\gamma^{[l]}$
更新参数（梯度下降法、动量法等）