可视化缺失值的库——missingno的使用方法和案例演示

可视化缺失值的库——missingno

1.安装程序包并加载

#pip install missingno
import missingno as msno

2.导入训练数据集

import pandas as pd
import numpy as np

queshizhidata = pd.read_csv('./testdata/used_car_train_20200313.csv',sep = ' ')

3.无效矩阵的数据密集显示

msno.matrix(queshizhidata, labels = True)


可以快速直观地挑选出图案的数据完成

我们可以一目了然的看到每个变量的缺失情况,

bodytype等变量都有不同程度的缺失

4.条形图

msno.bar(queshizhidata)


利用条形图可以更直观的看出每个变量缺失的比例和数量情况。

5.热图相关性

msno.heatmap(queshizhidata)


missingno相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在
如果看到缺失相关性为1,说明X5只要发生了缺失,那么X1.1也会缺失,
如果看到相关性为-1,说明X7缺失的值,那么X8没有缺失;而X7没有缺失时,X8为缺失。

6.树状图

msno.dendrogram(queshizhidata)


总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。

要解释此图表,要从上往下的角度阅读。

右边数据是比较完整的一类,model和v_14后面的是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量bodytype也是比较完整的,距离要比其他变量小,所以先把bodytype加进来。其他变量以此类推。

全部评论

相关推荐

2025年10月3日中午,在写完定时一年后发给自己的信之后,敲下键盘,写下这篇文字。我把标题的“所有人”加了引号,因为如我们所见,确实有的人顺风顺水,每天过的很开心,或是早早进入大厂,或是年纪轻轻就拿到了高薪offer,或是过着可能我努力十年也不一定实现的生活。但也许,不是每个人的痛苦都能被别人看到的,这个月我经常会哭,被骗6000块钱、手上钱不够导致拖欠房租、生活还要借朋友钱、国庆长假也没有钱去旅游,互联网公司不稳定担心试用期不过(毕竟上段实习就是被裁了,一有点风吹草动就害怕),但这样的我,不是所有人都知道的,居然是有些朋友的羡慕对象。回忆我的七年“长跑”别人都是多年幸福的恋爱长跑,我没有恋...
故事和酒66:让每一颗种子找到合适自己的生长方式,最终绽放出独一无二的花朵,这远比所有人都被迫长成同一棵“参天大树”的世界,更加美好和富有生机。这是社会和环境的问题,而不是我们的问题。然而就是在这样的环境中,楼主依然能突破自我,逆势成长,其中的艰辛可想而知。这一路的苦难终究会化作你成长的养料
你小时候最想从事什么职业
点赞 评论 收藏
分享
昨天 16:12
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务