深入理解机器学习的拟合问题和泛化问题

深入理解拟合问题和泛化问题:

从数学角度：

偏差是指我们忽略了多少数据，而方差是指我们的模型对数据的依赖程度。

（1）方差是模型响应训练数据而变化的程度。由于我们只是记忆训练集，我们的模型具有很大的差异：它高度依赖于训练数据。

（2）偏差是方差的另一面，因为它代表了我们对数据做出的假设的强度。

（3）

过拟合：过分依赖训练数据

欠拟合：未能学习训练数据中的关系

高方差：模型根据训练数据显着变化

高偏差：对模型的假设不够导致忽略训练数据

（4）过拟合和欠拟合导致测试集的泛化性差

一个验证集模型校正可以防止过拟合

直观的说，就是训练的theta的是否接近理想理想的theta。

深入理解机器学习的拟合问题和泛化问题

首先，理想的theta是一个黑盒子（由于假设、数据、算法等原因，我们现有技术无法打开），但是可以在此假设Jtrain 深入理解机器学习的拟合问题和泛化问题近似与理想状态，那么Jcv中的theta就是使得模型的泛化性有波动的原因。

总结：

1、三种角度看待过拟合（反之，就是欠拟合）：

深入理解机器学习的拟合问题和泛化问题

简单解释“过程”：平时表现好，真正考验时表现并不好的是过拟合；平时表现不好，测试效果也不好的是欠拟合。

2、泛化性是指预测结果，鲁棒性是指对输入端的处理是否理想，以下是参数驱动下，这几个方面的关系

深入理解机器学习的拟合问题和泛化问题