UConn DataMining Math5671 课程小记(2)
课程部分
主要讲 Nueral Network 原理,及数学和算法背景(略)
作业部分
Kaggle 的 Imbalance data 项目分析–Credit Card Fraud Detection
1 redo the code
2 under sample the majority class(欠采样,通常用于不平衡数据集,在fit 时随机删除一部分imbalance data中的多数类)
3using model metrics (accuracy, percision, recall, AUC and ROC), compare model with the one using approaches for handling imbalance data(比对模型指标)
理解这几个指标,读图。
4 使用Drop outlayer 法,修正overfitting问题。
图中可以看出,使用drop out layer 之后, 训练集表现下降
,而模型的泛化能力增强
- 若在训练模型时,不使用早停法
出现了明显的过拟合