二手车交易预测-task1 EDA

采用pandas_profiling

pandas_profiling 简直是不会编程的手残党福音啊，这次eda偷了一下懒，直接用这个，省去了许多代码，就是运行时间太长，[31×150000]的数据运行了51min。。。，好吧看一下
数据竞赛入门 #task1 EDA
由于所有特征都转化为label encoding，因此需要人为地分出数字特征与分类特征，预测值位price。从这里可以看出，bodytype、gearbox和fuelType的缺失值较多（3.0%、4.0%和5.8%），需考虑填充。offerType和seller几乎全部都是相同值，倾斜严重；根据相关性分析（皮尔逊系数），v_4与v_13，v_7与v_2，v_6与v_1，v_9与v_4高度相关。
故在初次分析时，考虑删去以下变量：offertype，seller,v_7,v_6与v_9，对于后三个匿名特征，会在初步拟合后逐步加入验证是否会存在因删去遗漏的信息。
其中object变量 ‘notrepairDmage’ 存在 ‘-’ 字符，即为缺失值，这里需默认替换为‘0’。
接下来查看预测值price的分布
数据竞赛入门 #task1 EDA
明显不是正态分布，故在回归之前需要进行转化。这里最符合的是*约翰逊分布（不知道这个知识点）

这里的min5和max5明显不符合现实规律，故将他们作为异常值进行删除。并进行对数转换（小trick！可能可以将数据转换为正态分布）

关于数字特征与分类特征，将他们人为分开后查看他们unique分布（不懂的知识点）

感悟：

EDA有几部分内容：对数据的整体认识（大小、特征数等）；对各个特征的缺失值、异常值和分布（偏度、峰度）有大概的了解，以便做出相应的操作（特别是y_label）；对整体数据做一个相对简单的相关性分析，以便剔除高度相关性的变量，或对接下来的特征工程有前瞻性的了解。
EDA部分的图表相当重要，除了常用的分布图，bar，scatter，box，heatmap，还学到violin图可以用于分类特征的分析

数据竞赛入门 #task1 EDA

二手车交易预测-task1 EDA

采用pandas_profiling

感悟：

相关推荐