如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?
在web上发现的一个独特的html案例中,有一个html文档在父HTML标签中有多个html标签。我想解析html标签的内容。任何人都可以指示我这样做吗?如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?
在此先感谢。
编辑1: 使用BeautifulSoup
soup = BeautifulSoup(html, "lxml")
只给出父html和在它存在的标签。
但是,我假设浏览器是否能够呈现HTML BS应该能够解析它。这个假设是否正确?
编辑2: 实际上,html是一个格式不正确的html(我在这里假设),这是我用beautifulsoup解析的html,我只是得到表格和第一个(最外面的)html。如果我手动删除多个HTML标签,只保留1个HTML标签,我可以解析BS中的表格。所以,问题是“有没有办法来解析下面的html和获取文件从最里面的数据,或者所有的表?
<!DOCTYPE html>
<html>
<head>
<title>Some Title</title>
</head>
<body>
some html to display the tables.
<html>
<head></head>
<title>Some other title</title>
<body>
some html to display even more tables.
</body>
</html>
</body>
</html>
这里是一个示例代码,您可以使用内发现的特定文本一种特殊的HTML标记的
soup2 = BeautifulSoup(x, 'html.parser')
for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
for j in i.find_all('li'):
我已经更新了包含更多细节的问题,请您评论一下吗?提前致谢。 – Kaustubh
这里有一些网站是有关你的问题,我想你可以找到你要寻找的一个很好的答案。
你可以添加一些代码示例,至于如何解决这个问题? –
,如果你给的网址,并解释你正在尝试从中提取会是什么帮助。 –