如何用Python搜索互联网?

问题描述:

我想写一个程序,通过一个相当大的网站搜索并提取某些东西。我有一些在线Python课程,但都没有提到如何使用Python访问互联网。我不知道我应该从哪里开始。如何用Python搜索互联网?

+2

你需要阅读HTTP,HTML和可能的JS/PHP/etc,可能在列表中浸入你的脚趾,以更强大的理解的DOM,然后了解文本解析/处理。看看urllib/urllib2/httplib/requests/etc,以及像BeautifulSoup甚至Selenium,取决于你需要的复杂性和交互性。 – 2013-04-03 22:00:15

+0

你看过[Python文档](http://docs.python.org/2/library/internet)吗?通过以下方式在Google上获得“Python Internet”的首个结果... – kindall 2013-04-03 22:09:49

您首先要了解有关标准Python库urllib2的信息。

一旦你对这个库背后的基本思想感到满意,你可以尝试requests,它更容易与web交互,尤其是API。我建议与httpie并行使用它来测试从命令行快速和肮脏的查询。

如果你去一个远一点建设librairy或引擎抓取你将需要某种形式的异步编程的网站,我建议先从Gevent

最后,如果你想创建一个履带/ BOT你可以看看Scrapy。你应该从深入的基础库入手,因为它可能会变得非常复杂

这听起来像你想要一个网络爬虫/刮板。你想拉什么样的东西?图片?链接?只是网络爬虫/刮板的工作。

从那里开始,应该会有很多关于*的文章,这些文章将帮助您实现连接到互联网(获取Web响应)等细节。

请参阅this文章。

互联网上的内容远远多于网站,但我认为你只是想抓取一些html页面并从中提取数据。你有很多很多选择来解决这个问题。只是一些出发点: