weka中的多级分类变量

问题描述:

我是数据挖掘的初学者。我正在使用weka。该数据集有109个变量,其中许多是具有许多级别(1至8)的名义变量。我的问题是:weka中的多级分类变量

1.我应该将分类变量(高达8级)转换为二进制文件还是照原样使用?

注意:我将使用逻辑回归,随机森林,朴素贝叶斯算法。

它们应该按原样工作,但如果将分类数据预处理为二进制文件,则可能会得到不同的结果。

Logistic回归,随机森林和朴素贝叶斯在Weka中似乎使用相当好的名义值。如果将属性转换为二进制文件,其中一些模型在引擎盖下可能会有所不同。我不认为Logistic回归会有很大的不同,但我不太确定随机森林或朴素贝叶斯。