使用网络爬取器抓取网页数据

问题描述:

我想使用网络爬虫并抓取特定的网站。该网站是一个学习管理系统,许多学生上传他们的作业,项目演示等。我的问题是,我可以使用网络爬虫并下载学习管理系统中上传的文件。我下载它们后,我想创建一个索引,以查询文档集。用户可以将我的应用程序用作搜索引擎。一个爬虫能做到这一点吗?我知道关于webeater(Crawler用Java编写)使用网络爬取器抓取网页数据

+0

如果您可以手动查看分配,演示文稿等,那么爬行器也可以。 – MeBigFatGuy 2011-03-30 06:15:10

+0

我可以查看他们作为链接,当点击下载.. – nikhil 2011-03-30 06:16:53

+0

然后是的,你可以。 – MeBigFatGuy 2011-03-30 06:26:31

  1. 用Java SingleThread下载文件。
  2. 解析文件(你可以从nutch的解析插件中获得想法)。
  3. 使用Lucene
+0

我不明白step1。什么是Java中的SingleThread。我知道java中的线程。你能提供更多关于这方面的信息吗? – nikhil 2011-03-30 07:58:36

+0

推荐将Lucene作为一个小规模的任务,因为这是我听过的最荒谬的事情。使用SQLite,你将在一个小时内完成。 – 2011-05-02 08:18:28

创建索引如果你想使用一个真正的WebCrawler,用户http://www.httrack.com/

它为您提供了复制的网站或网页上,包括Flash内容这么多的选择。它适用于Windows和Mac。

然后你可以按照上面的建议做第2步和第3步。