将R用于文本挖掘Reuters-21578

问题描述:

我正在尝试使用着名的Reuters-21578数据集做一些工作,并且在将sgm文件加载到我的语料库时遇到了一些麻烦。将R用于文本挖掘Reuters-21578

现在我用命令

require(tm) 
reut21578 <- system.file("reuters21578", package = "tm") 
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML)) 

在试图包括所有文件到我的文集,但是这给了我以下错误:

Error in DirSource(reut21578) : empty directory 

任何想法,我可能是出错了?

+0

看一看这个问题 - 它看起来像没有被包括在该数据'tm'包,你可能需要手动下载才能继续。 http://*.com/questions/10377273/tm-package-error-error-definining-document-term-matrix – Stedy

+0

@Stedy:您提供的链接肯定会对我的其他分析有所帮助,但我已经下载数据和我正在做的事情似乎没有找到合适的目录。 – user1422508

+1

ahh gotcha,好吧,我认为正在发生的事情是R在'tm'的源代码目录中查找。为什么不通过将文件放在'Documents'或Desktop中并简单地将其称为'file(“Documents/reuters-21578”)' – Stedy

“tm”包仅包含Reuters21578数据的样本。如果你想避免下载,装载,准备所有的22个Reuters21578文件,你可以使用包“tm.corpus.Reuters21578”:

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at") 
library(tm.corpus.Reuters21578) 
data(Reuters21578) 
+0

有一条评论声称URL不再工作。链接,他们倾向于打破,因此,“只有链接”的答案是不鼓励的... – GhostCat

+0

它给了我一些警告,但随后包下载就好了。我也不认为这是“仅链接”答案的真实例子。 –