从*文章中提取数据

问题描述：

我试图从*文章中提取有组织的类别列表及其子类别。该文章是：http://en.wikipedia.org/wiki/Outline_of_academic_disciplines 它不必动态编码到我的网站。我也愿意通过电子表格（importxml，importhtml等声明）手动提取数据。但是，我仍然没有找到一种优雅的方法来完成上述文章（电子表格提取或通过API）。（通过查看源代码，您可以看到带有表格的importhtml作为查询输入单个单元格中的所有列表项并带有列表的importhtml，因为查询不区分列表（即：无法知道哪些列表是列表的子列表哪些类别））。有人可以提供一些建议。从*文章中提取数据

我推荐你在阅读本文之前，请先阅读[Wikipedia关于编写一个抓取bot的文档]（http://en.wikipedia.org/wiki/Wikipedia:Creating_a_bot）。 – alroc 2014-12-02 18:56:23

答

在*“分类”是一个特定术语：获得通过API该文章的类别，查询如下：

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=categories&titles=Outline%20of%20academic%20disciplines

但是，据我所知，你希望所有的该表中列出的*文章的URL。

有几种方法，你可以这样做：最简单的就是把wikicode从文章（here），将其粘贴在一个良好的编辑器（我建议崇高的），然后就可以使用搜索&更换刮关闭“[””和‘]’，再加上每篇文章的前面的URL

http://en.wikipedia.org/wiki/

有了，添加，你可以有网址，在该页面中提到的文章的完整列表。希望这是你所寻求的（你提到了一些代码，但是我看不到）

从*文章中提取数据

相关推荐