处理*转储文件

问题描述:

我想处理*转储文件。在其他意义上,我想提取每篇文章的标题,类别和文本内容。我想问的是有没有任何Java API /工具可以帮助我做到这一点。 在此先感谢处理*转储文件

*转储文件是XML格式。因此,您可以使用任何可用的XML工具来实现此目的。

请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器会尝试将整个东西加载到内存表示中)。

你在找这样的事吗?

http://code.google.com/p/gwtwiki/wiki/MediaWikiDumpSupport

页有如何工作的API的例子。

+0

也是使用SAX。 – ingyhere 2012-02-15 20:21:59

看看http://code.google.com/p/jwpl/ 它的一个Java API,让你的结构化访问*转储,你需要一个数据库(MySQL或类似),以及最近的*转储大量的RAM,至少4G技术虽然处理。

但它很好用: 你可以得到一个遍历所有页面或页面标题的迭代器和更容易使用的东西。