model selection 模型选择

假设现有一个有限的模型集合M,如何自动的选出适合的模型,避免偏差与方差失衡情形?

1 交叉验证
将训练样例分为两部分,
StrainScv,选择模型时只用Strain,然后用Scv评分,选最优的。

这样实际上是用泛化误差评分的。七三开是最常用的比例。缺点是浪费了训练数据。即使选择完后重新用整个训练集训练,但在选择最优模型时依然只用了一部分,导致择优效果下降。

k折交叉验证

将数据分为k份,训练k次,每次选一份作为Scv,这样k次后每份都做过一次Scv。取k个误差的平均值最小的模型,然后用整个训练集重新训练一次。

常取k=10

2 特征选择

特征显然不是越多越好,无用的特征将会形成干扰,不利于模式的识别,或将增大识别的时空消耗,需要选择特征。

假设初始有n个特征,那么就有2^n个特征子集,全部遍历一般不现实,常用有

ForwardSearch前向搜索:

model selection 模型选择