Java网页刮板

问题描述:

什么是Java网页刮板最好的库?我知道以下选择:Java网页刮板

  1. 的HtmlUnit
  2. 洛沃浏览器

我需要选择一个选项,以建立一个可扩展的项目刮刀。

如果你在刮,为什么你需要浏览器?只要做一些基本的cURL调用页面并获得响应就会给你你需要做的一切。

这将有助于可扩展性。如果你想要一个浏览器,然后去HTMLUnit,因为这将再次有助于可伸缩性。

我最近建议Web Harvest,并且认为它运作良好开箱,除了围绕HTTP 500响应代码的一些问题...

使用jsoup,它的伟大工程,以得到URL,然后响应使用XPath表达式解析响应中的数据。我已经实现了这一点,它很好。