如何在ruby中编写爬虫?
我正在研究一个ROR应用程序,我需要实现一个抓取其他网站并将数据存储在我的数据库中的抓取工具。例如,假设我想抓取http://www.snapdeal.com中的所有交易并将它们存储到我的数据库中。如何使用爬虫实现这一点?如何在ruby中编写爬虫?
有几个选项取决于您的用例。
- Nokogiri。 Here是RailsCast,可以帮助你入门。
- Mechanize建在Nokogiri之上。请参阅Mechanize RailsCast。
- Screen Screen with ScrAPI and ScrAPI RailsCast。
- Hpricot。
我已经使用Nokogiri和机械化的组合为我的一些项目,我认为他们是不错的选择。
你想看看mechanize。另外从你提到的你可能根本不需要铁轨。
他可能需要网络服务器来运行它,我认为Rails将会拯救。当然,还有其他的Web服务器,但Rails很简单。 – 2012-02-21 07:50:44
@bhushan,从他提到的没有,没有理由认为铁路将是有用的。 – pguardiario 2012-02-21 08:11:06
我知道这个脚本是独立的,但是如何将它们与App结合? – 2012-02-21 08:14:28
就像任何其他语言一样。获取一些HTML,解析它,跟随链接,将所有内容存储在数据库中。 – 2012-02-21 05:19:48
您可以尝试[先锋宝石](https://github.com/fl00r/pioneer),但它仍在开发中 – fl00r 2012-03-05 21:40:18