可视化缺失值的库——missingno的使用方法和案例演示

可视化缺失值的库——missingno
文章目录可视化缺失值的库——missingno1.安装程序包并加载2.导入训练数据集3.无效矩阵的数据密集显示4.条形图5.热图相关性6.树状图
1.安装程序包并加载
#pip install missingno
import missingno as msno

2.导入训练数据集
import pandas as pd
import numpy as np

queshizhidata = pd.read_csv('./testdata/used_car_train_20200313.csv',sep = ' ')

3.无效矩阵的数据密集显示
msno.matrix(queshizhidata, labels = True)

在这里插入图片描述
可以快速直观地挑选出图案的数据完成

我们可以一目了然的看到每个变量的缺失情况,

bodytype等变量都有不同程度的缺失

4.条形图
msno.bar(queshizhidata)

在这里插入图片描述
利用条形图可以更直观的看出每个变量缺失的比例和数量情况。

5.热图相关性
msno.heatmap(queshizhidata)

在这里插入图片描述
missingno相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在
如果看到缺失相关性为1,说明X5只要发生了缺失,那么X1.1也会缺失,
如果看到相关性为-1,说明X7缺失的值,那么X8没有缺失;而X7没有缺失时,X8为缺失。

6.树状图
msno.dendrogram(queshizhidata)

在这里插入图片描述
总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。

要解释此图表,要从上往下的角度阅读。

右边数据是比较完整的一类,model和v_14后面的是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量bodytype也是比较完整的,距离要比其他变量小,所以先把bodytype加进来。其他变量以此类推。

作者:汪雯琦

相关推荐

在这里插入图片描述

SpringBoot实战:整合jUnit测试框架

3.1 PyTorch搭建第一个神经网络-关系拟合(回归Regression)

3.1 PyTorch搭建第一个神经网络-关系拟合(回归Regression)

windows10下mysql8.0.19忘记密码的解决办法

在这里插入图片描述

Linux-文件系统-学习笔记(14):根文件系统原理与nfs搭建方法