关于零基础入门金融风控挑战赛的笔记系列(持续更新)

Task1 赛题理解

赛题背景
金融行业里面,对风险控制非常严格,如果风控把握不好,那么会导致坏产等一系列恶性循环。因此,风控便成为了金融公司业务管理中重要的一环。这次,结合天池的优势,进行《零基础入门金融风控之贷款违约预测挑战赛》的练习,借此巩固python的使用和知识巩固,并对金融相关的行业和逻辑思维有更加深入的了解,对数据建模有更加系统的使用和熟悉。

一、了解数据状况
1、数据指标及其含义

` id 为贷款清单分配的唯一信用证标识
`loanAmnt 贷款金额
`term 贷款期限(year)
`interestRate 贷款利率
`installment 分期付款金额
`grade 贷款等级
`subGrade 贷款等级之子级
`employmentTitle 就业职称
`employmentLength 就业年限(年)
`homeOwnership 借款人在登记时提供的房屋所有权状况
`annualIncome 年收入
`verificationStatus 验证状态
`issueDate 贷款发放的月份
`purpose 借款人在贷款申请时的贷款用途类别
`postCode 借款人在贷款申请中提供的邮政编码的前3位数字
`regionCode 地区编码
`dti 债务收入比
`delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
`ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
`ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
`openAcc 借款人信用档案中未结信用额度的数量
`pubRec 贬损公共记录的数量
`pubRecBankruptcies 公开记录清除的数量
`revolBal 信贷周转余额合计
`revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
`totalAcc 借款人信用档案中当前的信用额度总数
`initialListStatus 贷款的初始列表状态
`applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
`earliesCreditLine 借款人最早报告的信用额度开立的月份
`title 借款人提供的贷款名称
`policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2

2、常用指标
(1)混淆矩阵
关于零基础入门金融风控挑战赛的笔记系列(持续更新)

(2)准确率(accurancy)
如果样本不均衡,那么该指标可能不够精确
(3)精确率(precision)
(4)召回率(recall)
(5)F1指标(F1 SCORE)
结合精确率和召回率的指标,兼顾性及参考性较单一指标要好
(6)P-R曲线
以召回率为横坐标,以精确率为纵坐标的曲线
(7)ROC
以假正例率(FPR)为横坐标,真正例率(TPR)为纵坐标的曲线
(8)AUC
ROC曲线与坐标轴围成的面积

关于零基础入门金融风控挑战赛的笔记系列(持续更新)
二、描述性数据概览(分析)
未完待续……