机器学习过拟合的原因和解决办法
一、什么是过拟合
1、泛化能力差
低 Ein,高Eout。
2、泛化能力差和过拟合
过拟合:E_in↓,E_out↑
欠拟合:E_in↑,E_out↓
3、过拟合的原因
①使用过多的d_vc (即使用的模型的复杂度过高)
②噪声
③数据有限
二、噪声和数据集尺寸的角色
复杂度越高的模型,当数据量越小,N→∞。灰色部分表示过拟合。
三、确定性噪声
1、过拟合的衡量
(1)高斯噪声的影响,δ^2 表示方差【随机噪声】
严重过拟合的原因:
数据集尺寸N ↓ 过拟合↑
随机噪声↑ 过拟合↑
确定性噪声↑ 过拟合↑
使用的模型复杂度↑ 过拟合↑
四、过拟合的解决方法
1、可能的解决途径
①从简单的模型开始
②数据清理/修剪
③提供额外的提示
④正则化
⑤验证
1、泛化能力差
低 Ein,高Eout。
2、泛化能力差和过拟合
泛化能力差:(E_out−E_in) 很大
过拟合:E_in↓,E_out↑
欠拟合:E_in↑,E_out↓
3、过拟合的原因
①使用过多的d_vc (即使用的模型的复杂度过高)
②噪声
③数据有限
二、噪声和数据集尺寸的角色
复杂度越高的模型,当数据量越小,N→∞。灰色部分表示过拟合。
三、确定性噪声
1、过拟合的衡量
(1)高斯噪声的影响,δ^2 表示方差【随机噪声】
(2)确定性噪声
严重过拟合的原因:
数据集尺寸N ↓ 过拟合↑
随机噪声↑ 过拟合↑
确定性噪声↑ 过拟合↑
使用的模型复杂度↑ 过拟合↑
四、过拟合的解决方法
1、可能的解决途径
①从简单的模型开始
②数据清理/修剪
③提供额外的提示
④正则化
⑤验证