返回所有页面的RSS

问题描述:

我使用python从rss页面抓取xml。我使用美丽的汤来解析XML。返回所有页面的RSS

输入是rss xml页面例如在http://*.blogspot.com/feeds/posts/default?alt=rss找到。

我用几个博客与格式类似于上面的链接,并为每个XML可以在/feeds/posts/default?alt=rss

中找到每个URL数据使用的urllib2下载并保存在变量xml

我的python代码然后使用美丽的汤来解析XML

bs = BeautifulSoup(xml) 
items = bs.rss.channel.findAll("item") 
print len(items) #returns 25 for any site 

我相信我只返回第一页。

如何返回所有页面并轻松找到每个URL的页数?

例如:LEN(页)=页数

+0

看来您需要请求用于从RSS页面抓取XML的python脚本中的所有页面。你需要详细说明你的问题有点样品输入和预期的输出... – vikramls 2014-12-04 06:50:44

+0

@vikramls是的,这似乎是我正在寻找。我已经更新了这个问题 – user2497792 2014-12-04 07:53:54

RSS/ATOM分页是不是一个标准的...所以人人都做不同的(!对于那些谁做的),这意味着你有麻烦做你想做的事。

RSS应该可能更多地被视为一种“预期”工具:不是为了获取内容,而是为了获得未来内容:如果您开始订阅订阅源,那么您将能够从现在开始跟踪事情只要饲料保持不变。

+0

我只是想整个抓取几个博客的RSS提要,难以访问下一页的25个项目吗?使用Atom会有什么好处吗? – user2497792 2014-12-04 15:36:52