模型选择与调优
模型选择,请看sklearn经典的这张图:
模型选择:
交叉验证:交叉验证集做参数/模型选择;测试集制作模型效果评估。
超参数选择:交叉验证选取
sklearn.grid_search.GridSearchCV
不同模型状态处理:
过拟合:找更多的数据来学习;增大正则化系数;减少特征个数;
欠拟合:找更多特征;减小正则化系数。
模型融合:
1、bagging,随机森林(分类:vote;回归:取平均)
2、模型stacking(用多种predictor结果作为特征训练)
3、渐进式adaboost/gradient boosting tree