数据竞赛入门 #task1 EDA

二手车交易预测-task1 EDA

采用pandas_profiling

pandas_profiling 简直是不会编程的手残党福音啊,这次eda偷了一下懒,直接用这个,省去了许多代码,就是运行时间太长,[31×150000]的数据运行了51min。。。,好吧看一下
数据竞赛入门 #task1 EDA
由于所有特征都转化为label encoding,因此需要人为地分出数字特征与分类特征,预测值位price。从这里可以看出,bodytype、gearbox和fuelType的缺失值较多(3.0%、4.0%和5.8%),需考虑填充。offerType和seller几乎全部都是相同值,倾斜严重;根据相关性分析(皮尔逊系数),v_4与v_13,v_7与v_2,v_6与v_1,v_9与v_4高度相关。
故在初次分析时,考虑删去以下变量:offertype,seller,v_7,v_6与v_9,对于后三个匿名特征,会在初步拟合后逐步加入验证是否会存在因删去遗漏的信息。
其中object变量 ‘notrepairDmage’ 存在 ‘-’ 字符,即为缺失值,这里需默认替换为‘0’。
接下来查看预测值price的分布
数据竞赛入门 #task1 EDA
明显不是正态分布,故在回归之前需要进行转化。这里最符合的是*约翰逊分布(不知道这个知识点)
数据竞赛入门 #task1 EDA
这里的min5和max5明显不符合现实规律,故将他们作为异常值进行删除。并进行对数转换(小trick!可能可以将数据转换为正态分布)

关于数字特征与分类特征,将他们人为分开后查看他们unique分布(不懂的知识点)

感悟:

EDA有几部分内容:对数据的整体认识(大小、特征数等);对各个特征的缺失值、异常值和分布(偏度、峰度)有大概的了解,以便做出相应的操作(特别是y_label);对整体数据做一个相对简单的相关性分析,以便剔除高度相关性的变量,或对接下来的特征工程有前瞻性的了解。
EDA部分的图表相当重要,除了常用的分布图,bar,scatter,box,heatmap,还学到violin图可以用于分类特征的分析