数据挖掘 周报二
理论学习:
1. 观看了学习资料的赛题理解baseline讲解
2. 根据论坛的资料一步步学习,知道如何实现一个较好的方案:数据分析->特征工程->建模调参->模型融合;目前学习到特征工程。
2.1 数据分析
- 对数据集进行查看,对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模。
- 了解变量间的相互关系、变量与预测值之间的存在关系。
2.2 特征工程
- 使用特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
2.3 建模调参
- 使用多种在金融分控领域常用的机器学习模型,并进行调参
2.4 模型融合
- 将之前建模调参的结果进行模型融合。 尝试多种融合方案
实践
根据baseline的讲解,重现了一遍;之后先据此在数据提取方面进行改进:(1)employmentTitle(就业职称),考虑删除;(2)regionCode(地区编码),根据城市大小进行变换;(3)earliesCreditLine(借款人最早报告的信用额度开立的月份 )考虑删除等。
下面是目前成绩: