我在哪里可以下载免费的,文本丰富的数据集?

问题描述:

我想做一点轻量级测试和基准标记进行全文搜索,所以数据集应具备的素质:我在哪里可以下载免费的,文本丰富的数据集?

  • 10,000 - 100,000条记录。
  • 英文单词分散性很好。
  • 以CSV或Excel格式 - 即。我不想通过API访问它。

类似书籍或电影的标题和说明字段将是完美的。我浏览了UCI Machine Learning Repo,但它太过于数字化。

+0

谢谢。这也导致我: http://download.freebase.com/datadumps/ – user258980 2010-03-31 19:37:00

如果你没有找到一个,你可以使用Lorem存有发生器创建一个

T-SQL equivalent of =rand()

你也可以得到充分的*的数据转储

http://blog.*.com/2009/06/stack-overflow-creative-commons-data-dump/

使用Gutenberg Project。您可以以纯文本访问数千本英文书籍。这就是我曾经使用过的,并对此感到满意。

+0

谢谢。 http://www.gutenberg.org/wiki/Gutenberg:Feeds – user258980 2010-03-31 19:40:14