UConn DataMining Math5671 课程小记(2)

课程部分

主要讲 Nueral Network 原理,及数学和算法背景(略)

作业部分

Kaggle 的 Imbalance data 项目分析–Credit Card Fraud Detection

1 redo the code

2 under sample the majority class(欠采样,通常用于不平衡数据集,在fit 时随机删除一部分imbalance data中的多数类)
UConn DataMining Math5671 课程小记(2)

3using model metrics (accuracy, percision, recall, AUC and ROC), compare model with the one using approaches for handling imbalance data(比对模型指标)
UConn DataMining Math5671 课程小记(2)
UConn DataMining Math5671 课程小记(2)
理解这几个指标,读图。

4 使用Drop outlayer 法,修正overfitting问题。

UConn DataMining Math5671 课程小记(2)
图中可以看出,使用drop out layer 之后, 训练集表现下降
,而模型的泛化能力增强

  1. 若在训练模型时,不使用早停法
    UConn DataMining Math5671 课程小记(2)
    UConn DataMining Math5671 课程小记(2)
    出现了明显的过拟合