只使用Python和美丽的汤从页面上的div标签中提取文本
问题描述:
我想刮一个静态新闻网站作为一个项目,我使用美丽的汤,但我被困在一个包含div标签,这里指的文字新闻文章只使用Python和美丽的汤从页面上的div标签中提取文本
新闻文本包含在以下格式
<html>
<body>
<div class="normal" id="foo">
" Many "
<a href ='/some link' target = 'blank'>Bollywood</a>
" stars today are avowed foodies "
<a href = 'link2'>Ranbir Kapoor</a>
" Alia Bhat "
</div>
</body>
</html>
我想要的文字是“许多宝莱坞明星户y发誓美食家。艾莉雅·巴特“
这就是我想要的所有无论他们在哪里的文本。
我能够使用find_all在div来arrrive(‘格’,‘正常’),但卡如何检索所有文本从页面元素之后
请让我知道如果你想要任何更多的信息
答
要从beautifulsoup一些元素提取text
你可以使用.text
属性:
>>> t = """<div class="normal" id="foo"> Many <a href ='/some link' target = 'blank'>Bollywood</a> stars today are avowed foodies <a href = 'link2'>Ranbir Kapoor</a> Alia Bhat </div>"""
>>> bs = BeautifulSoup(t)
>>> print(bs.find('div').text)
Many Bollywood stars today are avowed foodies Ranbir Kapoor Alia Bhat