数据挖掘实践(金融风控)

Task1 赛题理解

一、赛题

零基础入门金融风控-贷款违约预测
该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量
训练数据总共有8万条。部分截图如下:
数据挖掘实践(金融风控)
测试数据总共有2万条
变量信息如下:
数据挖掘实践(金融风控)

二、评测标准

提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。

三、结果提交

提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。

形式如下:

id,isDefault
800000,0.5
800001,0.5
800002,0.5
800003,0.5