如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容？

问题描述：

在web上发现的一个独特的html案例中，有一个html文档在父HTML标签中有多个html标签。我想解析html标签的内容。任何人都可以指示我这样做吗？如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容？

在此先感谢。

编辑1：使用BeautifulSoup

soup = BeautifulSoup(html, "lxml")

只给出父html和在它存在的标签。

但是，我假设浏览器是否能够呈现HTML BS应该能够解析它。这个假设是否正确？

编辑2：实际上，html是一个格式不正确的html（我在这里假设），这是我用beautifulsoup解析的html，我只是得到表格和第一个（最外面的）html。如果我手动删除多个HTML标签，只保留1个HTML标签，我可以解析BS中的表格。所以，问题是“有没有办法来解析下面的html和获取文件从最里面的数据，或者所有的表？

<!DOCTYPE html> 
<html> 
<head> 
    <title>Some Title</title> 
</head> 
<body> 
    some html to display the tables. 
    <html> 
     <head></head> 
     <title>Some other title</title> 
     <body> 
      some html to display even more tables. 
     </body> 
    </html> 
</body> 
</html>

，如果你给的网址，并解释你正在尝试从中提取会是什么帮助。 –

答

这里是一个示例代码，您可以使用内发现的特定文本一种特殊的HTML标记的

soup2 = BeautifulSoup(x, 'html.parser') 
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}): 
     for j in i.find_all('li'):

我已经更新了包含更多细节的问题，请您评论一下吗？提前致谢。 – Kaustubh

答

这里有一些网站是有关你的问题，我想你可以找到你要寻找的一个很好的答案。

http://www.compjour.org/warmups/govt-text-releases/intro-to-bs4-lxml-parsing-wh-press-briefings/
Using BeautifulSoup to find a HTML tag that contains certain text
Find index of tag with certain text in beautifulsoup/python

你可以添加一些代码示例，至于如何解决这个问题？ –

如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容？

相关推荐