您的位置: 首页 > 文章 > 《吴恩达深度学习》02改善深层神经网络：超参数调优、正则化以及优化（第2周优化算法）

《吴恩达深度学习》02改善深层神经网络：超参数调优、正则化以及优化（第2周优化算法）

分类: 文章 • 2024-04-27 17:50:55

02. 改善深层神经网络：超参数调优、正则化以及优化

第二周优化算法

2.1 Mini-Batch 梯度下降法

Batch 与 mini-batch 梯度下降
(1) 向量化能够高效地处理m个样本
(2) 将原有大规模数据集切割为同等大小的若干小规模子集，构成mini-batch
mini-batch 梯度下降法

2.2 理解mini-batch 梯度下降法

mini-batch梯度下降训练
(1) Batch梯度下降与Mini-batch梯度下降对比
选择Mini-batch规模
(1) 若规模为m（原数据集规模），则为Batch梯度下降
(2) 若规模为1，则为随机梯度下降（缺点：失去向量化带来的加速）

2.3 指数加权平均

举例：伦敦气温
指数加权平均

2.4 理解指数加权平均

指数加权平均公式
$v_t = \beta v_{t-1}+(1-\beta)\theta_t$
举例： $v_{100} = 0.1\theta_{100}+0.1\times0.9\theta_{99}+0.1\times(0.9)^2\theta_{98}+\cdots$

2.5 指数加权平均的偏差修正

偏差修正

红色线： $\beta=0.9$
绿色线： $\beta=0.98$ 预期线
紫色线： $\beta=0.98$ 实际线
为了精确估计，尤其是在初期，用 $\frac{v_t}{1-\beta^t}$ 代替 $v_t$

2.6 动量梯度下降法

梯度下降法举例

波动的学习进程导致学习效率降低
动量法
在第t代中：
计算 $dw$ ， $db$ 在相应的mini-batch上
$v_{dw}=\beta v_{dw}+(1-\beta)dw$
$v_{db}=\beta v_{db}+(1-\beta)db$
$w = w-\alpha v_{dw}$
$b= b-\alpha v_{db}$
实现细节

$\beta$ 常用值为0.9

2.7 RMSprop

RMSprop：root mean square prop
在第t代中：
计算 $dw$ 和 $db$ 在相应mini-batch上
$S_{dw}=\beta S_{dw}+(1-\beta)dw^2$
$S_{db}=\beta S_{db}+(1-\beta)db^2$
$w = w - \alpha\frac{dw}{\sqrt{S_{dw}}}$
$b = b - \alpha\frac{db}{\sqrt{S_{db}}}$
实践中，通常在根号内加一个很小的数值，如 $10^{-8}$ ，以防除以非常小的数。

2.8 Adam优化算法

Adam优化算法
初始化： $v_{dw} = 0, S_{dw}=0, v_{db} = 0, S_{db}=0$
在第t代中：
计算 $dw, db$ 在相应的mini-batch上
$v_{dw}=\beta_1v_{dw}+(1-\beta_1)dw$
$v_{db}=\beta_1v_{db}+(1-\beta_1)db$
$S_{dw}=\beta_2S_{dw}+(1-\beta_2)dw^2$
$S_{db}=\beta_2S_{db}+(1-\beta_2)db^2$
$v_{dw}^{corrected}=\frac{v_{dw}}{1-\beta_1^t}$
$v_{db}^{corrected}=\frac{v_{db}}{1-\beta_1^t}$
$S_{dw}^{corrected}=\frac{S_{dw}}{1-\beta_2^t}$
$S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$
$w = w- \alpha\frac{v_{dw}^{corrected}}{\sqrt{S_{dw}^{corrected}n}+\epsilon}$
$b = b- \alpha\frac{v_{db}^{corrected}}{\sqrt{S_{db}^{corrected}n}+\epsilon}$
超参选择
$\alpha$ ：需要进行调试
$\beta_1$ ：0.9
$\beta_2$ ：0.999
$\epsilon$ ： $10^{-8}$

2.9 学习率衰减

学习率衰减
避免在学习后期步幅较大，导致在最优值附近震荡
学习率衰减
$\alpha = \frac{1}{1+decayrate \times epochnum}$
其他学习率衰减方法
$\alpha = 0.95^{epochnum}\alpha_0$
$\alpha = \frac{const}{\sqrt{epochnum}}\alpha_0$

2.10 局部优化的问题

神经网络中的局部最优值
（1）示意图

（2）鞍点

（3）从低维空间得到的直觉，不能直接用到高维空间。
平稳段的问题
（1）梯度接近0，学习速率降低。
（2）解决方法：动量法，RMSprop