model selection 模型选择

假设现有一个有限的模型集合M，如何自动的选出适合的模型，避免偏差与方差失衡情形？

1 交叉验证
将训练样例分为两部分，Strain和Scv，选择模型时只用Strain，然后用Scv评分，选最优的。

这样实际上是用泛化误差评分的。七三开是最常用的比例。缺点是浪费了训练数据。即使选择完后重新用整个训练集训练，但在选择最优模型时依然只用了一部分，导致择优效果下降。

k折交叉验证

将数据分为k份，训练k次，每次选一份作为Scv，这样k次后每份都做过一次Scv。取k个误差的平均值最小的模型，然后用整个训练集重新训练一次。

常取k=10

2 特征选择

特征显然不是越多越好，无用的特征将会形成干扰，不利于模式的识别，或将增大识别的时空消耗，需要选择特征。

假设初始有n个特征，那么就有2^n个特征子集，全部遍历一般不现实，常用有

ForwardSearch前向搜索：

model selection 模型选择