深入理解机器学习的拟合问题和泛化问题

深入理解拟合问题和泛化问题:

从数学角度:

偏差是指我们忽略了多少数据,而方差是指我们的模型对数据的依赖程度。

(1)方差是模型响应训练数据而变化的程度。由于我们只是记忆训练集,我们的模型具有很大的差异:它高度依赖于训练数据。

(2)偏差是方差的另一面,因为它代表了我们对数据做出的假设的强度。

(3)

过拟合:过分依赖训练数据

欠拟合:未能学习训练数据中的关系

高方差:模型根据训练数据显着变化

高偏差:对模型的假设不够导致忽略训练数据

(4)过拟合和欠拟合导致测试集的泛化性差

一个验证集模型校正可以防止过拟合

直观的说,就是训练的theta的是否接近理想理想的theta。

深入理解机器学习的拟合问题和泛化问题

深入理解机器学习的拟合问题和泛化问题

首先,理想的theta是一个黑盒子(由于假设、数据、算法等原因,我们现有技术无法打开),但是可以在此假设Jtrain深入理解机器学习的拟合问题和泛化问题近似与理想状态,那么Jcv深入理解机器学习的拟合问题和泛化问题中的theta就是使得模型的泛化性有波动的原因。

 

总结:

1、三种角度看待过拟合(反之,就是欠拟合):

深入理解机器学习的拟合问题和泛化问题

简单解释“过程”:平时表现好,真正考验时表现并不好的是过拟合;平时表现不好,测试效果也不好的是欠拟合。

2、泛化性是指预测结果,鲁棒性是指对输入端的处理是否理想,以下是参数驱动下,这几个方面的关系

深入理解机器学习的拟合问题和泛化问题