SPSS Modeler数据挖掘学习_部分笔记
数据挖掘是一个过程,是一个以数据为中心的循序渐进的螺旋式数据探索过程。

一、数据挖掘方法论的各环节:
1.业务理解
2.数据理解
3.数据准备
4.建立模型
5.方案评估
6.方案实施
二、数据挖掘的任务和应用:
1.数据总结
2.分类和回归
3.聚类分析
4.关联分析
三、数据挖掘得到的只是形式:
1.浓缩数据
2.树形图
3.规则
4.数学模型
四、数据挖掘算法的分类:
1.根据算法分析数据的方式划分
2.根据算法来自的学科划分
3.根据算法所得结果的类型划分
4.根据学习过程的类型划分
首先来了解一下Modeler的数据集成:
一、从数据挖掘角度看变量类型:
连续数值型:表示年龄、家庭人口数等。
二分类型,简称分类型:表示性别等。
多分类型,也称名义型:表示职业、籍贯等。
定序型,也称有序型:表示受教育程度、收入水平等。
无类型:学号等编号变量或长文字等复杂数据变量,往往是无类型变量。无类型变量通常不参与数据建模。
离散型。
缺省型:缺省型是一种尚未明确的变量类型。
对于仅指定了变量名而尚未读入变量值的变量,Modeler无法确定其具体类型,默认为缺省型。Modeler称这样的变量处于非实例化状态。
二、从计算机存储角度看变量类型
整数型:用来存储整数
实数型:用来存储小数
字符串型:用来存储字符串数据
时间型:用来存储持续时间数据
日期型:用来存储日期数据
时间戳型:用来存储时间点数据
第一步:首先从源选项卡选择读入数据的类型
第二步:通过记录选项、字段选项对导入的数据进行数据进行清洗和数据变换
第三步:从建模中选择需要用到的模型
第四步:通过导出选项卡里的内容对结果进行展示
SPSS Modeler提供数据集成选项图标如下图所示:
数据清洗:
1.离群点和极端值的调整:
具体步骤:
a、选中某个变量行
b、下拉相应行的【操作】框选择调整方法
Modeler提供了以下离群点和极端值的调整方法:
强制:表示离群点或极端值调整为距它们最近的正常值。
丢弃:表示剔除离群点和极端值。
无效:表适用系统缺失值替代离群点或极端值。
强制替换离群值/丢弃极值:表示按照强制方法修正离群点,并剔除极端值。
强制替换离群值/使极值无效:表示按照强制方法修正离群点,并将极端值调整为系统缺失值
c、选中需要调整的变量行,选择窗口菜单菜单【生成】下的【离群值和极值超节点】。
2、缺失值的调整:
Modeler对缺失值的修正方法具体步骤是:
a、选中某个变量行。
b、下拉相应行的【缺失插补】框选择调整对象。
【缺失插补】重新指定调整对象:
空值:表示将对空做调整。
无效值:表示将对系统缺失值$null$做调整。
空值与无效值:表示将对空和系统缺失值做调整。
条件:表示将对满足指定条件的变量值做调整。
在【插补时间】中选择【条件】,并在【条件】框中输入一个CLEM条件表达式,然后在【插补方法】中选择调整方法,包括:
*固定:为默认值,表示调整为某个固定值。如果选择固定方法,还应在【固定值插补】框的【已固定为】下拉框中选择固定值,可以是均值、中间值、或一个指定的常数。
*随机:表示调整为一个服从正态分布或均匀分布的随机值。Modeler将给出相应变量的正态分布参数和均匀分布参数。
*算法:表示调整为模型的预测结果。Modeler只给出了分类回归树模型。
c、选中需要调整的变量行,选择窗口菜单【生成】下的【缺失值超节点】项。
【缺失值超节点】项表示,Modeler将自动生成一个包含若干个必要节点的超节点,用于根据用户指定的方法进行相应调整。
习惯把学习笔记放在移动硬盘里,结果前一阵硬盘坏了,以后会试着把自己觉得有用的东西慢慢放入博客里,如果有什么不足希望各位看客不吝赐教。
参考书籍《基于SPSS Modeler的数据挖掘_数据分析》