返回所有页面的RSS
问题描述:
我使用python从rss页面抓取xml。我使用美丽的汤来解析XML。返回所有页面的RSS
输入是rss xml页面例如在http://*.blogspot.com/feeds/posts/default?alt=rss找到。
我用几个博客与格式类似于上面的链接,并为每个XML可以在/feeds/posts/default?alt=rss
中找到每个URL数据使用的urllib2下载并保存在变量xml
我的python代码然后使用美丽的汤来解析XML
bs = BeautifulSoup(xml)
items = bs.rss.channel.findAll("item")
print len(items) #returns 25 for any site
我相信我只返回第一页。
如何返回所有页面并轻松找到每个URL的页数?
例如:LEN(页)=页数
答
RSS/ATOM分页是不是一个标准的...所以人人都做不同的(!对于那些谁做的),这意味着你有麻烦做你想做的事。
RSS应该可能更多地被视为一种“预期”工具:不是为了获取内容,而是为了获得未来内容:如果您开始订阅订阅源,那么您将能够从现在开始跟踪事情只要饲料保持不变。
+0
我只是想整个抓取几个博客的RSS提要,难以访问下一页的25个项目吗?使用Atom会有什么好处吗? – user2497792 2014-12-04 15:36:52
看来您需要请求用于从RSS页面抓取XML的python脚本中的所有页面。你需要详细说明你的问题有点样品输入和预期的输出... – vikramls 2014-12-04 06:50:44
@vikramls是的,这似乎是我正在寻找。我已经更新了这个问题 – user2497792 2014-12-04 07:53:54