如何从网站上刮取所有文章(包括可能通过RSS阅读器)?

问题描述:

请原谅我的无知,我是一个普通的计算机用户,对编程知之甚少。无论如何,我的问题是:如何从网站上刮取所有文章(包括可能通过RSS阅读器)?

有没有办法获得(即可能在编程术语'刮'')在特定的科技新闻网站上发布的所有文章?我希望输出(标题和文章以及可能的日期和作者)理想地以纯文本的形式出现,以便我可以在名为AntConc的语料库工具中使用它作为我个人和非营利性研究的一部分。

事实上,如果我可以通过我的RSS阅读器(feedly或inoreader)为相当多的网站做到这一点,那将会非常方便,但这可能要求太多,所以'一个一个'刮也可以。

会像Portia那样做吗?请记住,我对python等一无所知,我需要任何非常简单直接的方法。

谢谢

是的,它很可能加载像这样从其他网站提供的数据所支持的功能。在java/android中,我们只需创建一个简单的应用程序,将数据加载为Json,然后使用适配器将其解析为诸如列表视图,图像视图等视图,并可能存储在缓存中。

但这里的一对Udemy一个伟大而*当然,你可以迅速查看你的梦想的解决方案

https://www.udemy.com/how-to-make-an-app-build-an-app-business-rss-feed-news-apps/

或者,如果你有高达$ 19一个自动的,高品质的RSS阅读器应用程序无需编码的所有然后你可以检查出 http://www.shoutem.com/app/rss-feed

或质量少,简单,但免费 http://www.appsgeyser.com/create-rss-app/

但它总是最好找到一点时间,使应用程序或聘请开发人员的服务

+0

谢谢Vivee花时间回答!我在Udemy有一个帐户,并且已经略过了这个过程,但是我可能太过繁忙而无法实现它。是否有其他更快的方式收集所有的内容?谢谢! – nnad

+0

我在答案bro –

+0

中进行了更新再次感谢Vivee,我非常感谢您的帮助!我会在一分钟内详细了解这些链接,但现在对于我自己的RSS阅读器如何使我能够下载自该网站推出以来发布在特定网站上的所有文章仍然无法理解。简单的网页抓取会更简单吗?只是问问 :/ – nnad