网络爬虫的工作是什么?
虽然这个问题有点含糊让我放一些词来澄清。
Crawler发出一个URL的http请求并分析该网页的信息。举例来说,它使得一个http req。 http://www.example.com它检索页面的内容。
一旦它获得了分析它的页面内容。现在H1,H2,Pages的重要性基于这些标签,它可以了解网页的全部内容。
标识称为关键字和总结网页内容的重要/突出的话,并把它在它的索引
而且它得到的超链接,从将在其下一个跳跃用于这些网站,网页的其他网站并进一步进行。这是一个永无止境的故事。
所以无论何时一个关键字被问到,它都会从关键字数据库中看到并显示在结果中。
有时,爬网程序本身会将网页副本转储到名为缓存数据库的特殊数据库中,以便它可以用作原始数据的备用副本。
1.在第3点中,您提到了总结页面内容并将其放入其索引。关键字和页面之间的关系是如何维护的? 2.我们如何知道特定关键字仅来自该页面?它是如何实际执行的? 3.索引中包含的是什么? – user1702195 2010-08-17 14:41:16
关键字和其他元标记可以映射到URL,也可以将源自该站点的所有URL归入一个称为域名的实体下, – nepsdotin 2010-08-25 17:02:25
如果网络爬虫可以抓取网络,网络爬虫会抓取多少网页 – 2010-08-17 02:50:12
您的问题没有提及您正在谈论的网络爬虫。因此它对于计算器来说太模糊了。 – thomasrutter 2010-08-17 02:52:29
这个问题与PHP或Python有什么关系?你想写一个吗?是否存在您想要破解的现有内容? – 2010-08-17 07:10:47