将R用于文本挖掘Reuters-21578

问题描述：

我正在尝试使用着名的Reuters-21578数据集做一些工作，并且在将sgm文件加载到我的语料库时遇到了一些麻烦。将R用于文本挖掘Reuters-21578

现在我用命令

require(tm) 
reut21578 <- system.file("reuters21578", package = "tm") 
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

在试图包括所有文件到我的文集，但是这给了我以下错误：

Error in DirSource(reut21578) : empty directory

任何想法，我可能是出错了？

看一看这个问题 - 它看起来像没有被包括在该数据'tm'包，你可能需要手动下载才能继续。 http://*.com/questions/10377273/tm-package-error-error-definining-document-term-matrix – Stedy

@Stedy：您提供的链接肯定会对我的其他分析有所帮助，但我已经下载数据和我正在做的事情似乎没有找到合适的目录。 – user1422508

ahh gotcha，好吧，我认为正在发生的事情是R在'tm'的源代码目录中查找。为什么不通过将文件放在'Documents'或Desktop中并简单地将其称为'file（“Documents/reuters-21578”）' – Stedy

答

“tm”包仅包含Reuters21578数据的样本。如果你想避免下载，装载，准备所有的22个Reuters21578文件，你可以使用包“tm.corpus.Reuters21578”：

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at") 
library(tm.corpus.Reuters21578) 
data(Reuters21578)

有一条评论声称URL不再工作。链接，他们倾向于打破，因此，“只有链接”的答案是不鼓励的... – GhostCat

它给了我一些警告，但随后包下载就好了。我也不认为这是“仅链接”答案的真实例子。 –

将R用于文本挖掘Reuters-21578

相关推荐