网络爬虫的工作是什么？

问题描述：

Web爬虫会抓取Web并创建Web数据库吗？它只会创建一个可搜索的Web索引？如果假设它创建了一个索引，谁将准确地收集网页的数据并将其存储在数据库中？网络爬虫的工作是什么？

+10

如果网络爬虫可以抓取网络，网络爬虫会抓取多少网页 – 2010-08-17 02:50:12

您的问题没有提及您正在谈论的网络爬虫。因此它对于计算器来说太模糊了。 – thomasrutter 2010-08-17 02:52:29

这个问题与PHP或Python有什么关系？你想写一个吗？是否存在您想要破解的现有内容？ – 2010-08-17 07:10:47

答

虽然这个问题有点含糊让我放一些词来澄清。

Crawler发出一个URL的http请求并分析该网页的信息。举例来说，它使得一个http req。 http://www.example.com它检索页面的内容。
一旦它获得了分析它的页面内容。现在H1，H2，Pages的重要性基于这些标签，它可以了解网页的全部内容。
标识称为关键字和总结网页内容的重要/突出的话，并把它在它的索引
而且它得到的超链接，从将在其下一个跳跃用于这些网站，网页的其他网站并进一步进行。这是一个永无止境的故事。
所以无论何时一个关键字被问到，它都会从关键字数据库中看到并显示在结果中。
有时，爬网程序本身会将网页副本转储到名为缓存数据库的特殊数据库中，以便它可以用作原始数据的备用副本。

1.在第3点中，您提到了总结页面内容并将其放入其索引。关键字和页面之间的关系是如何维护的？ 2.我们如何知道特定关键字仅来自该页面？它是如何实际执行的？ 3.索引中包含的是什么？ – user1702195 2010-08-17 14:41:16

关键字和其他元标记可以映射到URL，也可以将源自该站点的所有URL归入一个称为域名的实体下， – nepsdotin 2010-08-25 17:02:25