weka中的多级分类变量

问题描述：

我是数据挖掘的初学者。我正在使用weka。该数据集有109个变量，其中许多是具有许多级别（1至8）的名义变量。我的问题是：weka中的多级分类变量

1.我应该将分类变量（高达8级）转换为二进制文件还是照原样使用？

注意：我将使用逻辑回归，随机森林，朴素贝叶斯算法。

答

它们应该按原样工作，但如果将分类数据预处理为二进制文件，则可能会得到不同的结果。

Logistic回归，随机森林和朴素贝叶斯在Weka中似乎使用相当好的名义值。如果将属性转换为二进制文件，其中一些模型在引擎盖下可能会有所不同。我不认为Logistic回归会有很大的不同，但我不太确定随机森林或朴素贝叶斯。