使用BeautifulSoup获取匹配扩展名的文件名

问题描述:

我正在尝试使用BeautifulSoup解析HTML页面,该文件包含文本文件,以.txt扩展名结尾。我想解析HTML,并获取以.txt结尾的字符串。使用BeautifulSoup获取匹配扩展名的文件名

所有这样的字符串是一个<a href>标签内,这里是一些例子:

<a href = "foo.txt">

<a href = "bar.txt">

如何获得foo.txtbar.txt

我这样做:

>>> links = soup.findAll('a')

但我无法找到如何提取完整的字符串...有什么建议?

BeautifulSoup接受正则表达式作为参数的形式find()findAll() 这应该工作:

links = soup.findAll(href=re.compile("\.txt$")) 
+0

,我认为它应该是:'soup.findAll( 'A',HREF = ...' – mouad 2011-05-30 10:06:19

+0

嗯是什么。 – user225312 2011-05-30 10:07:53

+0

@AA:我的建议实际上是搜索所有具有'href =“*。txt”'的'a'标签,@vartec解决方案检查所有的标签有一个'href =“*。txt”'。 – mouad 2011-05-30 10:19:30