Python:从URL读取HTML源代码并获得日期到程序

问题描述:

我是Python的初学者,我想从一个站点读取信息,并在我的文本框(我使用EasyGUI)中输出一些数据作为输出。我发现这是为了获得一个URL的HTML源代码,但现在我想使用HTML输出,我知道如何使用XML,我想这对HTML来说有点相同。有什么方法可以处理元素和属性?Python:从URL读取HTML源代码并获得日期到程序

filehandle = urllib.urlopen('URL') 

for lines in filehandle.readlines(): 
    print lines 

filehandle.close() 

在此先感谢

+0

如果您知道如何使用xml。它基本上是一样的。解析DOM。查看BeautifulSoup或http://docs.python.org/library/htmlparser.html。 – 2012-03-18 13:05:44

至于建议,美丽的汤是一个库,可以帮助你。显示一个简单的例子。

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(filehandle.read()) 
titleTag = soup.html.head.title 

Python也内置了解析器。 http://docs.python.org/library/htmlparser.html

BeautifulSoup非常善于处理破损的html,尽管如此。

如果您熟悉jQuery的语法来选择HTML元素,您可能会发现pyquery有用。