泛化和过拟合

泛化能力

泛化能力用来表征学习模型对于未知数据的预测能力。

很显然,我们没有办法对所有的数据进行预测然后判断来计算一个模型的模型的泛华能力,所以在实际应用当中,我们一般还是用的测试集中的数据来近似泛化能力。

过拟合

当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。

见下图

泛化和过拟合