是否可以通过Python进行HTML抓取，数据挖掘？

问题描述：

我可以收集智能数据，HTML使用python刮？我不知道它，所以我想想一些想法。是否可以通过Python进行HTML抓取，数据挖掘？

[Python和数据挖掘]的可能重复（http://*.com/questions/1321749/python-and-data-mining） – 2011-05-23 00:04:36

答

看着模块scrapy：

答

尝试使用的urllib2和美味的汤。

的urllib2是请求的URL编程有用的。这是标准库的一部分：http://docs.python.org/library/urllib2

美丽的汤是很好的挖掘HTML/XML，并可以在这里找到：http://pypi.python.org/pypi/BeautifulSoup

答

你当然可以 - 我在Python开发this library我的网页抓取工作。

一个很好的解析库是lxml。

如果你是新来的Python你可能想通过this ebook工作第一。

的链接都死了。 – 2016-05-12 09:01:53

@TilakMadichetti不，他们不是。 – SmallChess 2016-11-01 02:24:12

抱歉！那时候我的网络出现了问题。我的错：） – 2016-11-05 10:16:52

答

您也可以使用htql库在：http://htql.net。