【机器学习系列之八】模型设计

本文是竞赛中的模型设计,基本都非常复杂,针对不同问题,有不同的解法,所以这只是参考。

1.微额借款人品预测-不得直视本王

特征处理的时候对数值型数据生成了排序特征,还有离散特征和计数特征。
M1:
python,R,java三个不同版本的xgboost + SVM。参数各有不同,因此模型间具有比较高的差异性。
【机器学习系列之八】模型设计

M2:
利用bagging的思想,训练36个xgboost.每个xgboost的对各类型的特征都选取topN个,N的个数可以在一定范围内随机取,有利于模型的随机性。同时模型的参数也随机取。因此,可以同时在特征和参数中都增加了多样性。
【机器学习系列之八】模型设计

M3:根据模型差异性简单加权融合
为了直观观察模型间的差异性,可计算模型间的最大信息系数,然后以混淆矩阵的形式给出(颜色越浅,表示模型差异性越大)

【机器学习系列之八】模型设计

选取模型差异性大的来融合
融合方案:
【机器学习系列之八】模型设计

M4:迭代半监督
用最好的模型预测无标签数据,设定阀值a,b,超过阀值,则判定为正(负)样本,然后添加到训练集训练,接着继续预测。
【机器学习系列之八】模型设计

M5:暴力半监督
【机器学习系列之八】模型设计
每次从无标签样本中选择10个样本,有1024种打标签方式。使用但模型训练1024次并在测试集上测试,选择线下(train:test为1:9)性能提升最多的那组标签。
将5000组*10的数据取top500组*10。在这5000个样本中,每次选择部分样本(20-50)添加到训练集观测线上表现,保留提分的样本。最终将这部分样本添加到训练集中,运行M3得到最终的模型。
【机器学习系列之八】模型设计

2.微额借款–就是gan

利用粒子群优化算法暴力集成,也是一种集成思想。
【机器学习系列之八】模型设计

未完,待续

参考
不得直视本王-冠军分享问答及完整代码

粒子群优化算法

就是gan算法分享

微额贷款人品预测分享合集