SPSS Modeler 之缺失值定义(指南 第七章)

SPSS Modeler 之缺失值定义(指南 第七章)
前面,通过数据审核得到数据的分布情况和数据质量,今天,小编和大家一起进一步查看数据中缺失值的情况。

案例:数据文件Customers(缺失).xlsx。

数据流:
SPSS Modeler 之缺失值定义(指南 第七章)
数据展示:
SPSS Modeler 之缺失值定义(指南 第七章)
SPSS Modeler 之缺失值定义(指南 第七章)
数据审核结果:
SPSS Modeler 之缺失值定义(指南 第七章)
审核报告中显示,“Car_Owner”有7个缺失值,但是“Age”没有报告缺失值。

为了在分析前完成对缺失值的定义,我们可以通过类型节点,对缺失值进行定义和检查。

1. 类型节点

SPSS Modeler 之缺失值定义(指南 第七章)

1.1 缺失选项定义

由于字段“Age”的缺失值已被提前处理为-1,因此需要在软件中定义该处理。
SPSS Modeler 之缺失值定义(指南 第七章)
SPSS Modeler 之缺失值定义(指南 第七章)

1.2 检查选项定义

SPSS Modeler 之缺失值定义(指南 第七章)

1.3 重新进行数据审核

SPSS Modeler 之缺失值定义(指南 第七章)

2. SPSS Modeler缺失值类型

2.1 空值

在数据文件中留空或在软件中使用“undef”定义为控制的值将在软件中被识别为空值。

注意:字符串在软件中并不是被识别为空值,而是被识别为空字符串和空白。
如:字段“Car_Owner”缺失值被识别为空字符串和空白,如果“Age”字段存在记录留空,则被识别为空值。

2.2 空字符串和空白

将被单独识别为一类,而不被视为空值。一般情况下,空字符串都视为等同于空白。

2.3 空白值

在源节点或类型节点中,被专门定义为缺失的值,例如“Age”字段取值为-1的值被识别为空白值。
对于空白值,软件将显示原值,例如本例中的-1。