从*页面获取xml

问题描述:

我试图从xml解析*页面。 我使用特殊:导出链接以获取页面的就是那样的链接XML:从*页面获取xml

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

但是,当我试图让我不能使用这个链接文件或目录页,例如,该页面不返回XML:

的http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

的http:// en.wikipedia.org /wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一个解决方案,但我不明白:

  1. 将名称空间添加到页面名称的前缀(例如, 'Help:Contents'), ,除非选定的命名空间是主命名空间。
  2. 重复上述用于其他命名空间的步骤(如产品类别: 模板:等)

将该溶液我发现在http://meta.wikimedia.org/wiki/Help:Export。 这是什么意思请。

谢谢。

+0

嗨,我不知道你在说什么。 http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films确实为我生成了一个XML。你是在寻找一个类别中的__页面_而不是? – BenMQ 2013-02-12 13:14:15

+0

是的,那我在找什么 – 2013-02-12 14:40:34

Special:Export生成给定页面的内容,但'类别的文章列表'或'文件'不是页面。你从导出得到的只是类别或文件描述页面的xml。

以检索的beloning到某一类页的列表,你需要MediaWiki的API:Categorymembers .

尝试this example。您也可以玩弄API Sandbox以了解不同的参数。

无法直接下载文件。但是,imageinfo API可以为您生成文件的URL,例如this example

另请参阅:Download images with MediaWiki API?

+0

谢谢,这是非常有帮助的 – 2013-02-13 17:31:23