使用BeautifulSoup获取匹配扩展名的文件名
问题描述:
我正在尝试使用BeautifulSoup
解析HTML页面,该文件包含文本文件,以.txt
扩展名结尾。我想解析HTML,并获取以.txt
结尾的字符串。使用BeautifulSoup获取匹配扩展名的文件名
所有这样的字符串是一个<a href>
标签内,这里是一些例子:
<a href = "foo.txt">
<a href = "bar.txt">
如何获得foo.txt
和bar.txt
。
我这样做:
>>> links = soup.findAll('a')
但我无法找到如何提取完整的字符串...有什么建议?
答
BeautifulSoup接受正则表达式作为参数的形式find()
和findAll()
这应该工作:
links = soup.findAll(href=re.compile("\.txt$"))
,我认为它应该是:'soup.findAll( 'A',HREF = ...' – mouad 2011-05-30 10:06:19
嗯是什么。 – user225312 2011-05-30 10:07:53
@AA:我的建议实际上是搜索所有具有'href =“*。txt”'的'a'标签,@vartec解决方案检查所有的标签有一个'href =“*。txt”'。 – mouad 2011-05-30 10:19:30