从Python中的Web提取信息的解析器
问题描述:
我的任务是解析HTML页面(以西里尔文)并提取某些单词。这是我必须解析的网页:http://www.toponymic-dictionary.in.ua/。我只得到了页:从Python中的Web提取信息的解析器
import urllib
from lxml.html import fromstring
url = 'http://www.toponymic-dictionary.in.ua/'
content = urllib.urlopen(url).read()
doc = fromstring(content)
doc.make_links_absolute(url)
的HTML代码相当复杂,我(使用XPath),所以我不知道该如何继续进入分析。
答
+0
谢谢你的帮助。但是,正如我所知,BeautifulSoup没有使用斯拉夫语言(例如乌克兰语)。 – 2013-06-28 13:28:32
你*已经*解析了页面。 'doc'现在是一个已解析的文档树。尝试并找到一些'ElementTree'和/或lxml教程,然后回到这里,如果你仍然被困在更具体的东西。 – 2013-04-04 08:33:56