使用网络爬取器抓取网页数据

问题描述：

我想使用网络爬虫并抓取特定的网站。该网站是一个学习管理系统，许多学生上传他们的作业，项目演示等。我的问题是，我可以使用网络爬虫并下载学习管理系统中上传的文件。我下载它们后，我想创建一个索引，以查询文档集。用户可以将我的应用程序用作搜索引擎。一个爬虫能做到这一点吗？我知道关于webeater（Crawler用Java编写）使用网络爬取器抓取网页数据

如果您可以手动查看分配，演示文稿等，那么爬行器也可以。 – MeBigFatGuy 2011-03-30 06:15:10

我可以查看他们作为链接，当点击下载.. – nikhil 2011-03-30 06:16:53

然后是的，你可以。 – MeBigFatGuy 2011-03-30 06:26:31

答

用Java SingleThread下载文件。
解析文件（你可以从nutch的解析插件中获得想法）。
使用Lucene

我不明白step1。什么是Java中的SingleThread。我知道java中的线程。你能提供更多关于这方面的信息吗？ – nikhil 2011-03-30 07:58:36

推荐将Lucene作为一个小规模的任务，因为这是我听过的最荒谬的事情。使用SQLite，你将在一个小时内完成。 – 2011-05-02 08:18:28

答

创建索引如果你想使用一个真正的WebCrawler，用户http://www.httrack.com/

它为您提供了复制的网站或网页上，包括Flash内容这么多的选择。它适用于Windows和Mac。

然后你可以按照上面的建议做第2步和第3步。

使用网络爬取器抓取网页数据

相关推荐