只使用Python和美丽的汤从页面上的div标签中提取文本

问题描述:

我想刮一个静态新闻网站作为一个项目,我使用美丽的汤,但我被困在一个包含div标签,这里指的文字新闻文章只使用Python和美丽的汤从页面上的div标签中提取文本

的链接,该网站是 http://economictimes.indiatimes.com/magazines/panache/smoking-aces-chef-irshad-qureshis-interesting-stories-related-to-celebrities/articleshow/48712333.cms

新闻文本包含在以下格式

<html> 
<body> 
<div class="normal" id="foo"> 
     " Many " 
<a href ='/some link' target = 'blank'>Bollywood</a> 
" stars today are avowed foodies " 
<a href = 'link2'>Ranbir Kapoor</a> 
" Alia Bhat " 
</div> 
</body> 
</html> 

我想要的文字是“许多宝莱坞明星户y发誓美食家。艾莉雅·巴特

这就是我想要的所有无论他们在哪里的文本。

我能够使用find_all在div来arrrive(‘格’,‘正常’),但卡如何检索所有文本从页面元素之后

请让我知道如果你想要任何更多的信息

要从beautifulsoup一些元素提取text你可以使用.text属性:

>>> t = """<div class="normal" id="foo"> Many <a href ='/some link' target = 'blank'>Bollywood</a> stars today are avowed foodies <a href = 'link2'>Ranbir Kapoor</a> Alia Bhat </div>""" 
>>> bs = BeautifulSoup(t) 
>>> print(bs.find('div').text) 
    Many Bollywood stars today are avowed foodies Ranbir Kapoor Alia Bhat