在没有任何东西的情况下获取RSS

问题描述:

对不起,因为我们来了,所以现在可能会混淆一半。我正在询问有关如何从默认情况下未启用RSS的页面获取RSS订阅源的建议或指导。但这不是问题本身。问题是,在该页面上,我被要求输入用户名和密码。所以嘛,否则将是东西......在没有任何东西的情况下获取RSS

问题:

获取不启用一个RSS feed,并看到“新闻”,我们需要先登录一个论坛的RSS。

可能的解决方案浮现在脑海:

  1. 有它提供英语服务,以获得RSS网页上的他们是不是哪里几个网站。这很好,但问题是,当这些网站没有提供用户名和密码登录到我想要获取信息的网页时,所以这些类型的网站被排除在外。
  2. 我没有通过网址登录,所以把网址列在论坛上面(第1项)的网站上,用户名和密码变量直接来自url规范:www.forosinrss/login.php?usuario = me & password = your pff,我反弹论坛,告诉我我我们没有得到正确的数据。另一个问题是密码是md5加密的,所以我不能使用URL登录(fk T_T)。
  3. 尝试使用“SELECT * FROM DB Internet”,换句话说,使用YQL。但它出来的几乎和他们发现无法插入和登录到用户和密码一样多,也为论坛生成一个cookie并不开心,我投了票。

我需要建议,建议,提示或投诉。

+0

您需要通过脚本下载页面,并使用可处理CURL等身份验证的库,然后解析页面。如果你还不知道,那将是一次漫长的攀登。 – Erik 2010-09-21 04:14:48

+0

这是一个好主意。感谢您的时间和您的回应。 – user453445 2010-09-21 04:23:30

如果您感觉很勇敢,请使用类似cURL或fsockopen的方式下载页面,然后使用XSLT样式表将页面从html转换为rss。

曾几何时我在PHP写的应用程序与OK-ISH结果要做到这一点:

  • 使用卷曲,以获得页面,并保留一份副本
  • 运行自定义过滤器的正则表达式来选择实际上很重要的一些页面(有些网站有广告动态文本或只显示当前日期和时间)
  • 超时后,使用curl重新获取页面并运行相同的过滤器
  • 运行diff old_page,new_page并将结果传送到rss模板

系统工作正常,但在繁琐的过滤页面向下,我想从饲料的内容和它打破了很多,因为这些类型的网站往往是手工编辑的,所以你不能保证任何一致性。