Python：从URL读取HTML源代码并获得日期到程序

问题描述：

我是Python的初学者，我想从一个站点读取信息，并在我的文本框（我使用EasyGUI）中输出一些数据作为输出。我发现这是为了获得一个URL的HTML源代码，但现在我想使用HTML输出，我知道如何使用XML，我想这对HTML来说有点相同。有什么方法可以处理元素和属性？Python：从URL读取HTML源代码并获得日期到程序

filehandle = urllib.urlopen('URL') 

for lines in filehandle.readlines(): 
    print lines 

filehandle.close()

在此先感谢

如果您知道如何使用xml。它基本上是一样的。解析DOM。查看BeautifulSoup或http://docs.python.org/library/htmlparser.html。 – 2012-03-18 13:05:44

答

至于建议，美丽的汤是一个库，可以帮助你。显示一个简单的例子。

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(filehandle.read()) 
titleTag = soup.html.head.title

Python也内置了解析器。 http://docs.python.org/library/htmlparser.html

BeautifulSoup非常善于处理破损的html，尽管如此。

答

如果您熟悉jQuery的语法来选择HTML元素，您可能会发现pyquery有用。

Python：从URL读取HTML源代码并获得日期到程序

相关推荐