是否可以通过Python进行HTML抓取,数据挖掘?

问题描述:

我可以收集智能数据,HTML使用python刮?我不知道它,所以我想想一些想法。是否可以通过Python进行HTML抓取,数据挖掘?

+0

[Python和数据挖掘]的可能重复(http://*.com/questions/1321749/python-and-data-mining) – 2011-05-23 00:04:36

看着模块scrapy:

http://scrapy.org/

尝试使用的urllib2和美味的汤。

的urllib2是请求的URL编程有用的。这是标准库的一部分:http://docs.python.org/library/urllib2

美丽的汤是很好的挖掘HTML/XML,并可以在这里找到:http://pypi.python.org/pypi/BeautifulSoup

你当然可以 - 我在Python开发this library我的网页抓取工作。

一个很好的解析库是lxml

如果你是新来的Python你可能想通过this ebook工作第一。

+0

的链接都死了。 – 2016-05-12 09:01:53

+0

@TilakMadichetti不,他们不是。 – SmallChess 2016-11-01 02:24:12

+0

抱歉!那时候我的网络出现了问题。我的错 :) – 2016-11-05 10:16:52

您也可以使用htql库在:http://htql.net