多示例数据集 (Multi-instance)

1 benchmark数据集

  benchmark数据集目前包含:MUSK1、MUSK2 1、Elephant、Fox以及Tiger 2,其具体属性如下:

数据集名称 MUSK1 MUSK2 Elephant Fox Tiger
维度 166 166 230 230 230
包数量 92 102 200 200 200
正包数 47 39 100 100 100
实例数 476 6598 1391 1320 1220
最大包大小 40 1044 13 13 13
最小包大小 2 1 2 2 1


2 text categorization

  二十个文本分类数据集 3来自于文本分类中广泛使用的20个新闻组语料库。对于每个数据集,包的数量为100,正包的数量与负包的数量相同。

3 image 数据集

  图像分类是MIL最成功的应用之一。 数据集2000-Image 4和1000-Image 5包含20和10类COREL图像。 每个类别有100张图像,每个图像都视为一个包。
4 artificial数据集

  最初由Amar 6等制造,用于多示例回归,已上传至GitHub:

5 数据集格式介绍


