[Strata Data Conference培训课程] 数据科学精髓:互联网金融实例-量化线上金融信用与欺诈风险的评估
您想了解互联网金融幕后的量化分析流程吗?个人信用是怎样通过大数据被量化的?在实践过程中,机器学习算法的应用存在着哪些需要关注的方面?怎样通过图谱分析来融合多维数据,为我们区分正常用户和欺诈用户?
这套辅导课基于清华大学交叉信息研究院2017年春天新开设的一门"量化金融信用与风控分析”研究生课。其中会用LendingClub的真实借贷数据做为案例,解说一些具体模型的实现。
您将学到什么及如何应用之
专业术语,研发方向,具体挑战,数据科学解决方案
本培训适合您因为…
了解数据科学在互联网金融领域里在个人信用评估的价值
了解个人信用领域真实的数据科学流程和考虑方面
了解信用模型搭建中多种挑战的解决方案
预备条件:
一些数据科学建模经验,对金融个人信用领域的兴趣
硬件和/或安装要求:
观众可选择事先下载数据和code,跟随练习。
具体课程内容如下:
7月12日 第一天(上午):
1. 金融信用行业概况
什么是信用?
信用贷款行业概况
信用贷款风险
金融产品的设计
2. 数据特性与评估标准
中美信用评分的现状
信息源:身份鉴别+还款能力/意愿,个人设备信息,个人线上/线下行为信息
风控术语与评估标准
数据源获取挑战
7月12日 第一天(下午):
3. 数据采集与特征提取
-
数据源的选择
信贷金融属性强度,数据产生的频率,反应还款能力/意愿
-
特征的挖掘
特征的挖掘,有效性/稳定性的评估
特征的组合,
迁移学习,主动学习,表征学习
-
知识图谱的应用
实体和关系的定义
图数据库的技术实现
用Cypher做图谱挖掘
社区挖掘算法案例
设备指纹
4. 信用和欺诈的标注
-
标注获取的挑战
成本高,周期长,定义多样
-
信用标注
早期产品模型,成熟产品模型
-
欺诈标注
欺诈标注的五层分层
7月13日 第二天(上午):
5. 信用和欺诈模型的搭建
-
Incremental Learning
Static Windowing Approach
Updating Approach
Forgetting Genuine Approach
-
数据非平衡处理:
Random Oversampling and Undersampling
Informed Undersampling
Synthetic Sampling with Data Generation
Adaptive Synthetic Sampling
Sampling with Data Cleaning Techniques
-
模型策略
Linear Regression
GBT
Deep Learning
Ensembles
-
结果评估
混淆矩阵
排序评估方法
ROC Curve
PR Curve
7月13日 第二天(下午):
6. 商业决策和评估:
利率和额度的确定
营利性的评估
7. 黑色产业链
黑色产业链一览
安全与用户体验的权衡
对应策略
8. 行业案例
关于导师
种骥科博士现任清华大学访问教授和宜人贷 (NYSE:YRD) 首席数据科学家。在宜人贷,种骥科的数据科学团队支持反欺诈风控和数字驱动的运营和创新。之前,种骥科曾任职于美国Simply Hired招聘平台,创建了数据科学部, 并应邀为白宫科技办公室参谋大数据技术产品设计。还曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师,负责大数据技术在私募投资风控方面的应用。种骥科曾任美国卡内基梅隆大学教授与博士生导师,持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,和9项专利(5项获准,4项待批)。
Strata Data Conference北京站正在报名中,点击图片中二维码可登录会议网站,浏览截止到目前为止的讲师名单和已经确认的议题,早期票价优惠期截止到6月9日,尽快注册以确保留位。