【机器学习系列之八】模型设计

本文是竞赛中的模型设计，基本都非常复杂，针对不同问题，有不同的解法，所以这只是参考。

1.微额借款人品预测-不得直视本王

特征处理的时候对数值型数据生成了排序特征，还有离散特征和计数特征。
M1:
python,R，java三个不同版本的xgboost + SVM。参数各有不同，因此模型间具有比较高的差异性。
【机器学习系列之八】模型设计

M2:
利用bagging的思想，训练36个xgboost.每个xgboost的对各类型的特征都选取topN个，N的个数可以在一定范围内随机取，有利于模型的随机性。同时模型的参数也随机取。因此，可以同时在特征和参数中都增加了多样性。
【机器学习系列之八】模型设计

M3:根据模型差异性简单加权融合
为了直观观察模型间的差异性，可计算模型间的最大信息系数，然后以混淆矩阵的形式给出（颜色越浅，表示模型差异性越大）

【机器学习系列之八】模型设计

选取模型差异性大的来融合
融合方案：
【机器学习系列之八】模型设计

M4:迭代半监督
用最好的模型预测无标签数据，设定阀值a,b，超过阀值，则判定为正（负）样本，然后添加到训练集训练，接着继续预测。
【机器学习系列之八】模型设计

M5:暴力半监督
【机器学习系列之八】模型设计
每次从无标签样本中选择10个样本，有1024种打标签方式。使用但模型训练1024次并在测试集上测试，选择线下（train:test为1：9）性能提升最多的那组标签。
将5000组*10的数据取top500组*10。在这5000个样本中，每次选择部分样本（20-50）添加到训练集观测线上表现，保留提分的样本。最终将这部分样本添加到训练集中，运行M3得到最终的模型。
【机器学习系列之八】模型设计

2.微额借款–就是gan

利用粒子群优化算法暴力集成，也是一种集成思想。
【机器学习系列之八】模型设计

未完，待续

参考
不得直视本王-冠军分享问答及完整代码

粒子群优化算法

就是gan算法分享

微额贷款人品预测分享合集

【机器学习系列之八】模型设计

相关推荐