Python:从URL读取HTML源代码并获得日期到程序
问题描述:
我是Python的初学者,我想从一个站点读取信息,并在我的文本框(我使用EasyGUI)中输出一些数据作为输出。我发现这是为了获得一个URL的HTML源代码,但现在我想使用HTML输出,我知道如何使用XML,我想这对HTML来说有点相同。有什么方法可以处理元素和属性?Python:从URL读取HTML源代码并获得日期到程序
filehandle = urllib.urlopen('URL')
for lines in filehandle.readlines():
print lines
filehandle.close()
在此先感谢
答
至于建议,美丽的汤是一个库,可以帮助你。显示一个简单的例子。
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(filehandle.read())
titleTag = soup.html.head.title
Python也内置了解析器。 http://docs.python.org/library/htmlparser.html
BeautifulSoup非常善于处理破损的html,尽管如此。
如果您知道如何使用xml。它基本上是一样的。解析DOM。查看BeautifulSoup或http://docs.python.org/library/htmlparser.html。 – 2012-03-18 13:05:44