您的位置: 首页 > 文章 > IBM SPSS Modeler使用技巧------样本数据的选择

IBM SPSS Modeler使用技巧------样本数据的选择

分类: 文章 • 2024-01-16 10:12:28

在数据挖掘项目中，经常会涉及到非常大的数据量，数据量太大会使得整个分析过程效率不高，这个时候，样本数据的选择非常重要，在IBM SPSS Modeler平台上，可以通过【样本】节点来实现多种不同方式的样本数据选择。

在【样本】节点中，可以选择采样方式，分别是【简单】和【复杂】；

如果选择【简单】，模式可以是【包含样本】或【丢弃样本】，可以实现选择记录的前 n 条记录、每n条选1、随机百分比。
IBM SPSS Modeler使用技巧------样本数据的选择

具体如下：

· 第一个：选择前N条记录。例如，如果最大样本大小设置为 10000，则前 10000 条记录会被选中。

· n 中取 1：每隔 n 个记录进行一次选择或废弃。例如，如果 n 设为 5，则每隔五条记录便会选中一条。

· 随机 %：随机抽取指定百分比的数据。例如，如果百分比设置为 20，那么根据选择的模式，将 20% 的数据传递到数据流或将其废弃。

如果选择【复杂】,有两个设置我们需要注意，就是【聚类和分层】，我们通过举例来介绍如何使用。

IBM SPSS Modeler使用技巧------样本数据的选择

举例1：在一份数据里，有青年、中年、老年不同年龄级别的客户，而其中老年人是较少的，为了避免随机抽取时，老年人的客户抽取不到，或者量更少，可以使用【分层】，使数据在青年、中年和老年三个类型中，分别抽取N%，这样，每个类型的客户都会抽取N%的数据。因此，分层可以按照选择的分层维度来保持数据原来的比例。

具体操作如下：

在【样本】节点，选择采样方式是【复杂】，单击【聚类与分层】，在弹出的对话框中，分层方式选择【年龄级别】，样本单位可以选择按【比例】或者是【计数】，这里先选择按比例0.5(即50%)，确定后，筛选的数据就是每个不同年龄级别分别随机抽取50%的样本数据。

IBM SPSS Modeler使用技巧------样本数据的选择

当然，如果需要，我们也可以分别给每个年龄级别抽取不同的样本数据大小，选择【定制】，排序方式选择【年龄级别】，点击左下角的【读取值】，会自动读取【年龄级别】中对应的元素内容，在右边的【样本大小】，自己输入需要抽取的样本百分比即可，比如下图中，抽取的样本大小分别是：

· 老年：0.8

· 青年：0.5

· 中年：0.4

IBM SPSS Modeler使用技巧------样本数据的选择

设置之后，就可以实现在老年客户中随机抽取80%的数据，青年客户随机抽取50%的数据，以及中年客户随机抽取40%的数据。

举例2：在零售行业，最经常用到的是购物篮分析，在做购物篮分析的时候，数据格式经常是这样的格式：

IBM SPSS Modeler使用技巧------样本数据的选择

如果按【简单】的方式抽取样本数据的话，很可能同一订单号，有的被抽取到了，有的没有被抽到到，那这样会影响到购物篮分析的真实结果，因此【样本】选项中的【复杂】抽样里面的【聚类】就可以解决这个问题。

我们只需要在【聚类】选项选择【record id】，这样抽取数据的时候，要么包括同一【record id】的全部记录，要么就完全没有这个【record id】，这样，就可以保证购物篮分析时，同一订单的商品数据不会丢失，购物篮分析时所体现的商品相关性不会丢失，具体设置如下图：

IBM SPSS Modeler使用技巧------样本数据的选择

作者：数控小J
来源：CSDN
原文：https://blog.csdn.net/chenjunji123456/article/details/62038266
版权声明：本文为博主原创文章，转载请附上博文链接！