本节内容综述

本次内容讲顺带解决CNN的中两个问题：1是max pooling中无法为max微分，梯度下降时该怎么办；2是正则化L1如何解释。
深度学习中有两个问题：如何解决在training data或testing data上效果不同的问题？对于前者，是否是设计的不够好？可以考虑从new activation function、adaptive learning rate入手；对于后者，本节课将从early stopping、regularization、dropout入手讲解。
对于前者，可以更换**函数，引出了 ReLU 与 ReLU - variant ，又详细讲了 Maxout 。
Maxout 的训练回答了 1. 中提出的 max pooling 的问题。
接着，开始讲解 Adaptive learning rate 的内容。介绍了 RMSProp 、 Momentum 与 Adam ，具体可以见【李宏毅2020 ML/DL】P8-9。
接着开始介绍关于Early Stopping的现象，见[小细节](#Early Stopping)；
接着，开始介绍关于正则的内容，包括L2正则，L1正则，二者对比，weight decay等，见小细节
对于 Dropout，先讲了是什么怎么做，再讲为何做。见小细节

小细节

梯度消失 - 考虑更换**函数

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

如上，在前面的层与后面的存在梯度“不对等”的问题，不在同一数量级。

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

对于 sigmoid 函数，1到正无穷时，其值都是接近1的，变化不大。

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

这就造成第1层，或者说比较前面的层，其参数即便改变很大，到后面的影响也很小了。

因此，更改**函数是一个好的解决方案。

ReLU

选择 ReLU 的理由如下：

跟 sigmoid function 比起来， ReLU 的运算快很多
结合了生物上的观察
无穷多 bias 不同的 sigmoid function 叠加的结果会变成 ReLU
ReLU 可以处理 Vanishing gradient 的问题

ReLU - variant

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

Maxout

Maxout network 是一种 Learnable activation function(lan J. 2013)

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

Maxout 有办法做到与 ReLU同样效果。如下图。

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

因此，可以说：ReLU是Maxout的特殊形式。

Maxout 的性质？
【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

Maxout 如何训练？

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

如上，再一次传播中，我们已经得到 Maxout 网络中选择哪个神经元。

接着，我们就把本次不参与计算的部分拿掉，如下。max函数无法微分，但是在具体实践中，我们可以根据数据把max函数转换成某个具体函数，再对这个转化后的 thinner linear network 进行微分。

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

Early Stopping

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

如上图，很有可能当 train loss 逐渐减小时，test loss 不降反升了。

Regularization

考虑到bias与平滑几乎没有关系，因此正则只是对w的处理。

L2 regularization

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

对于 L2 ，其效果有一种 Weight Decay 的效果。

L1 regularization

【李宏毅2020 ML/DL】P14 Tips for training DNN | **函数、Maxout、正则、剪枝 Dropout

绝对值如何微分？使用sgn这个函数来近似。

对于 L1 ，其减去了一个固定值 $\eta \gamma \text{sgn}(w^t)$ ，其值与 $w^t$ 大小无关。因此，用 L1 训练完，还可能出现比较大的参数，而且其在每次下降是是一个固定的值。这就造成L1的结果中，其参数比较sparse，有些比较大，很多事接近于0的。在CNN的任务中，使用L1比较合适。