如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?

如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?

问题描述:

在web上发现的一个独特的html案例中,有一个html文档在父HTML标签中有多个html标签。我想解析html标签的内容。任何人都可以指示我这样做吗?如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?

在此先感谢。

编辑1: 使用BeautifulSoup

soup = BeautifulSoup(html, "lxml") 

只给出父html和在它存在的标签。

但是,我假设浏览器是否能够呈现HTML BS应该能够解析它。这个假设是否正确?

编辑2: 实际上,html是一个格式不正确的html(我在这里假设),这是我用beautifulsoup解析的html,我只是得到表格和第一个(最外面的)html。如果我手动删除多个HTML标签,只保留1个HTML标签,我可以解析BS中的表格。所以,问题是“有没有办法来解析下面的html和获取文件从最里面的数据,或者所有的表?

<!DOCTYPE html> 
<html> 
<head> 
    <title>Some Title</title> 
</head> 
<body> 
    some html to display the tables. 
    <html> 
     <head></head> 
     <title>Some other title</title> 
     <body> 
      some html to display even more tables. 
     </body> 
    </html> 
</body> 
</html> 
+0

,如果你给的网址,并解释你正在尝试从中提取会是什么帮助。 –

这里是一个示例代码,您可以使用内发现的特定文本一种特殊的HTML标记的

soup2 = BeautifulSoup(x, 'html.parser') 
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}): 
     for j in i.find_all('li'): 
+0

我已经更新了包含更多细节的问题,请您评论一下吗?提前致谢。 – Kaustubh

+0

你可以添加一些代码示例,至于如何解决这个问题? –