IBM SPSS Modeler使用技巧------样本数据的选择

在数据挖掘项目中,经常会涉及到非常大的数据量,数据量太大会使得整个分析过程效率不高,这个时候,样本数据的选择非常重要,在IBM SPSS Modeler平台上,可以通过【样本】节点来实现多种不同方式的样本数据选择。

在【样本】节点中,可以选择采样方式,分别是【简单】和【复杂】;

如果选择【简单】,模式可以是【包含样本】或【丢弃样本】,可以实现选择记录的前 n 条记录、每n条选1、随机百分比。
IBM SPSS Modeler使用技巧------样本数据的选择

具体如下:

· 第一个:选择前N条记录。例如,如果最大样本大小设置为 10000,则前 10000 条记录会被选中。

· n 中取 1: 每隔 n 个记录进行一次选择或废弃。例如,如果 n 设为 5,则每隔五条记录便会选中一条。

· 随机 %:随机抽取指定百分比的数据。例如,如果百分比设置为 20,那么根据选择的模式,将 20% 的数据传递到数据流或将其废弃。

如果选择【复杂】,有两个设置我们需要注意,就是【聚类和分层】,我们通过举例来介绍如何使用。

IBM SPSS Modeler使用技巧------样本数据的选择

举例1:在一份数据里,有青年、中年、老年不同年龄级别的客户,而其中老年人是较少的,为了避免随机抽取时,老年人的客户抽取不到,或者量更少,可以使用【分层】,使数据在青年、中年和老年三个类型中,分别抽取N%,这样,每个类型的客户都会抽取N%的数据。因此,分层可以按照选择的分层维度来保持数据原来的比例。

具体操作如下:

在【样本】节点,选择采样方式是【复杂】,单击【聚类与分层】,在弹出的对话框中,分层方式选择【年龄级别】,样本单位可以选择按【比例】或者是【计数】,这里先选择按比例0.5(即50%),确定后,筛选的数据就是每个不同年龄级别分别随机抽取50%的样本数据。

IBM SPSS Modeler使用技巧------样本数据的选择

当然,如果需要,我们也可以分别给每个年龄级别抽取不同的样本数据大小,选择【定制】,排序方式选择【年龄级别】,点击左下角的【读取值】,会自动读取【年龄级别】中对应的元素内容,在右边的【样本大小】,自己输入需要抽取的样本百分比即可,比如下图中,抽取的样本大小分别是:

· 老年:0.8

· 青年:0.5

· 中年:0.4

IBM SPSS Modeler使用技巧------样本数据的选择

设置之后,就可以实现在老年客户中随机抽取80%的数据,青年客户随机抽取50%的数据,以及中年客户随机抽取40%的数据。

举例2:在零售行业,最经常用到的是购物篮分析,在做购物篮分析的时候,数据格式经常是这样的格式:

IBM SPSS Modeler使用技巧------样本数据的选择

如果按【简单】的方式抽取样本数据的话,很可能同一订单号,有的被抽取到了,有的没有被抽到到,那这样会影响到购物篮分析的真实结果,因此【样本】选项中的【复杂】抽样里面的【聚类】就可以解决这个问题。

我们只需要在【聚类】选项选择【record id】,这样抽取数据的时候,要么包括同一【record id】的全部记录,要么就完全没有这个【record id】,这样,就可以保证购物篮分析时,同一订单的商品数据不会丢失,购物篮分析时所体现的商品相关性不会丢失,具体设置如下图:

IBM SPSS Modeler使用技巧------样本数据的选择


作者:数控小J
来源:CSDN
原文:https://blog.csdn.net/chenjunji123456/article/details/62038266
版权声明:本文为博主原创文章,转载请附上博文链接!