动手学深度学习PyTorch版-task3

task1：https://blog.****.net/zahidzqj/article/details/104293563

task2：https://blog.****.net/zahidzqj/article/details/104309590

task3：本章节

1.过拟合、欠拟合及其解决方案

基本概念：模型选择、K折交叉验证、过拟合和欠拟合、权重衰减

验证数据集：测试集只能在所有超参数和模型参数选定后使用一次，不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证集（validation set）。

K折交叉验证：由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是K折交叉验证（K-fold cross-validation）。在K折交叉验证中，我们把原始训练数据集分割成K个不重合的子数据集，然后我们做K次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均。

究模型训练中经常出现的两类典型问题：

一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；
另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。

以多项式函数拟合为例，多项式项数越多，模型也就越复杂。一阶多项式函数拟合又叫线性函数拟合。

动手学深度学习PyTorch版-task3

根据训练集和验证集，可以得到两个误差：

动手学深度学习PyTorch版-task3

对于训练集，当d 较小时，模型拟合程度更低，误差较大；随着 d的增长，拟合程度提高，误差减小。

对于交叉验证集，当 d较小时，模型拟合程度低，误差较大；但是随着d的增长，误差呈现先减小后增大的趋势，转折点是我们的模型开始过拟合训练数据集的时候。

所以，训练集误差和交叉验证集误差近似时：偏差大/欠拟合

交叉验证集误差远大于训练集误差时：方差大/过拟合

动手学深度学习PyTorch版-task3

过拟合解决方法：

于 L2 范数正则化（regularization）：在模型原损失函数基础上添加L2范数惩罚项，从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。

动手学深度学习PyTorch版-task3

其中w1,w2是权重参数，b是偏差参数。带有L2范数惩罚项的新损失函数为：

动手学深度学习PyTorch版-task3

其中超参数λ>0。当权重参数均为0时，惩罚项最小。当λ较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当λ设为0时，惩罚项完全不起作用。有了L2范数惩罚项后，在小批量随机梯度下降中，我们将线性回归一节中权重w1和w2的迭代方式更改为：

动手学深度学习PyTorch版-task3

可见，L2范数正则化令权重w1和w2先自乘小于1的数，再减去不含惩罚项的梯度。因此，L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。

问题：为何正则项中只有w，没有b？

因为w通常是一个高维参数矢量，已经可以表达高偏差问题，w可能包含有很多参数，我们不可能拟合所有参数，而b只是单个数字，所以w几乎涵盖所有参数，而不是b，如果加了参数b，其实也没太大影响，因为b只是众多参数中的一个，所以通常省略不计，如果你想加上这个参数，完全没问题。

丢弃法：dropout

假设网络中的每一层，每个节点都以抛硬币的方式设置概率，每个节点得以保留和消除的概率都是0.5，设置完节点概率，我们会消除一些节点，然后删除掉从该节点进出的连线，最后得到一个节点更少，规模更小的网络，然后用backprop方法进行训练。

理解 dropout（Understanding Dropout）

不愿意把所有赌注都放在一个节点上，不愿意给任何一个输入加上太多权重，因为它可能会被删除，因此该单元将通过这种方式积极地传播开，并为单元的四个输入增加一点权重，通过传播所有权重，dropout将产生收缩权重的平方范数的效果，和我们之前讲过的L2正则化类似，实施dropout的结果是它会压缩权重，并完成一些预防过拟合的外层正则化。

dropout被正式地作为一种正则化的替代形式，L2对不同权重的衰减是不同的，它取决于倍增的**函数的大小。

dropout一大缺点就是代价函数J不再被明确定义，每次迭代，都会随机移除一些节点，如果再三检查梯度下降的性能，实际上是很难进行复查的。定义明确的代价函数 J 每次迭代后都会下降，因为我们所优化的代价函数J实际上并没有明确定义，或者说在某种程度上很难计算，所以我们失去了调试工具来绘制这样的图片。通常会关闭dropout函数，将keep-prob的值设为1，运行代码，确保J函数单调递减。

其他减少神经网络中的过拟合的方法：

1 数据扩增

2 early stopping代表提早停止训练神经网络

未完待续。。。。

动手学深度学习PyTorch版-task3

相关推荐