WEKA数据集

WEKA数据集：

WEKA所处理的数据集是一个.arff（attribute relation file）为后缀名的二维表。这是一种ASCII文本文件。以%开始的行是注释。
表中具体的内容：
@relation+文件名称
@attribute+属性名和具体的属性值
@data后为每个实例对应的属性值

1、@relation<关系名>，此处关系名是一个字符串，如果字符串包含空格，必须加上引号（之英文标点的单引号或者双引号）

2、属性声明：一系列@attribute开头的语句来表示。数据集中每一个属性都有对应的@attribute来定义它的属性名称和数据类型。
@attribute<属性名><数据类型>：
属性名必须是以字母开头的字符串，和关系名称一样，如果这个字符串包含空格，它必须加上引号。
属性声明语句是顺序很重要，最后一个声明的属性被称class值，在分类或者回归任务中，被默认为目标变量。

3、@data 数据信息：每个实例占一行，实例的各属性值用逗号隔开，某各属性值缺失，用问号表示，切问号不能省略。

4、WEKA支持的数据类型

numeric数值型、：整数或者实数
nominal-specification标称型、如：Outlook{sunny，overcast，rainy} 打括号中的就是类别
string字符串型、：可以包含任意文本。
data[data-formal]日期和时间型。：默认日期格式：ISO-8601给出的格式：“yyyy-MM-dd HH:mm:ss”
还可以使用integer和real类型，但是WEKA把他们都当做numeric类型看待。
注： integer和real、numeric和string，data是区分大小写的，但是relation、attribute‘data不区分大小写。

稀疏数据

有时候数据集中含所有大量的0值，这时候用稀疏数据更加节省存储空间。 WEKA数据集

WEKA数据集：

稀疏数据

相关推荐