missingno库---缺失值可视化分析

缺失值

当我们拿到数据的时候,数据不一定是完整的,有时候一些特征有缺失值,我们可以通过可视化缺失值来决定我们下一步要进行的操作。

missingno库

missingno是一个可视化缺失值的库,方便使用,我们可以用pip install missingno 即可下载该库。

例子

import missingno as msno
msno.matrix(players.sample(500))#players表示类型为dataframe的表格,sample(500)表示抽取表格中500个样本。

missingno库---缺失值可视化分析
上图是代码运行后得到的结果,白线越多,代表缺失值越多。
再来验证一下,我们去掉rater1和rate2的缺失值。

players = players[players.rater1.notnull()]
msno.matrix(players.sample(500))

missingno库---缺失值可视化分析
看得出,rate1的白线没了,因为我们把缺失值给去掉了。所以白线没了。
我们还可以生成热度图。

msno.heatmap(players,figsize=(16, 7))#figsize是指图的大小

missingno库---缺失值可视化分析
生成了这样一个图,这个图的意思是,比如说rater1和rater2的热度值是1,代表的是,当rater1缺失时,rater2也百分之百缺失,表示的是两个特征之间的关系。