从*文章中提取数据

问题描述:

我试图从*文章中提取有组织的类别列表及其子类别。 该文章是:http://en.wikipedia.org/wiki/Outline_of_academic_disciplines 它不必动态编码到我的网站。我也愿意通过电子表格(importxmlimporthtml等声明)手动提取数据。 但是,我仍然没有找到一种优雅的方法来完成上述文章(电子表格提取或通过API)。 (通过查看源代码,您可以看到带有表格的importhtml作为查询输入单个单元格中的所有列表项并带有列表的importhtml,因为查询不区分列表(即:无法知道哪些列表是列表的子列表哪些类别))。 有人可以提供一些建议。从*文章中提取数据

+0

我推荐你在阅读本文之前,请先阅读[Wikipedia关于编写一个抓取bot的文档](http://en.wikipedia.org/wiki/Wikipedia:Creating_a_bot)。 – alroc 2014-12-02 18:56:23

在*“分类”是一个特定术语:获得通过API该文章的类别,查询如下:

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=categories&titles=Outline%20of%20academic%20disciplines 

但是,据我所知,你希望所有的该表中列出的*文章的URL。

有几种方法,你可以这样做: 最简单的就是把wikicode从文章(here),将其粘贴在一个良好的编辑器(我建议崇高的),然后就可以使用搜索&更换刮关闭“[””和‘]’,再加上每篇文章的前面的URL

http://en.wikipedia.org/wiki/ 

有了,添加,你可以有网址,在该页面中提到的文章的完整列表。 希望这是你所寻求的(你提到了一些代码,但是我看不到)