JSP Servlet Web抓取

问题描述:

我想编写一个程序,最好是Servlet,它将搜索网站中的特定关键字,我将作为url字段中的参数传递给JSP(视图)页面,所以我的控制器将连接到该URL并将搜索内容。JSP Servlet Web抓取

可能吗?

我是网络爬行技术的新手。 Web爬行会起作用吗?

请帮我一把。

感谢, @rs

+0

是的,这是可能的。请在步骤中逐步解决问题,并在每一步遇到困难时询问每个步骤的具体编程问题。这个问题过于宽泛和修辞。 – BalusC

是的,它是可能的,但它不是一个servlet你需要这个。您需要从所需URL获取HTML内容的东西,然后创建自己的逻辑来解析HTML文本并提取所需内容。

一个基本的客户端应该是Apache HTTP Client:http://hc.apache.org/httpclient-3.x/。然而,这个人只提取HTML,它不会执行JavaScript或使用富媒体内容(如Flash)。然而,这与Google Web Crawlers的工作方式非常相似。

更高级的客户端是HTML单元:http://htmlunit.sourceforge.net/。这家伙也做JavaScript。

此外,如果你真的要比较Googlebot如何实际获取的页面,你可以使用这个模拟器从谷歌:http://www.google.com/support/webmasters/bin/answer.py?answer=158587(你需要用你的gmail accoutn到谷歌网站管理员工具登录到使用它)

+0

@ Andrei-非常感谢。卡住后会再回来 – Ars