使用BeautifulSoup获取匹配扩展名的文件名

问题描述：

我正在尝试使用BeautifulSoup解析HTML页面，该文件包含文本文件，以.txt扩展名结尾。我想解析HTML，并获取以.txt结尾的字符串。使用BeautifulSoup获取匹配扩展名的文件名

所有这样的字符串是一个<a href>标签内，这里是一些例子：

<a href = "foo.txt">

<a href = "bar.txt">

如何获得foo.txt和bar.txt。

我这样做：

>>> links = soup.findAll('a')

但我无法找到如何提取完整的字符串...有什么建议？

答

BeautifulSoup接受正则表达式作为参数的形式find()和findAll() 这应该工作：

links = soup.findAll(href=re.compile("\.txt$"))

，我认为它应该是：'soup.findAll（ 'A'，HREF = ...' – mouad 2011-05-30 10:06:19

嗯是什么。 – user225312 2011-05-30 10:07:53

@AA：我的建议实际上是搜索所有具有'href =“*。txt”'的'a'标签，@vartec解决方案检查所有的标签有一个'href =“*。txt”'。 – mouad 2011-05-30 10:19:30