爬虫的原理及过程

通用网络爬虫
一、实现过程如下图所示
爬虫的原理及过程
二、实现原理如下

  1. 获取初始的URL。初始的URL地址可以人为的指定,也可以由用户指定的某几个或者某个初始爬取网页决定。
  2. 根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后,解析网页信息内容将网页信息内容存储到原始数据库中,并且在当前获得的网页信息里面发现新的URL地址,存放到一个URL队列里面。
  3. 从URL队列中读取新的URL,从而获得新的网页信息,同时在新网页中获取新的URL,并重复上述的爬取过程。
  4. 满足爬虫系统设置的停止条件时,停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示
爬虫的原理及过程
二、实现原理如下

  1. 制定爬取的方案。
  2. 设定初始的URL。
  3. 根据初始的URL抓取页面,并获得新的URL。
  4. 从新的URL中过滤掉与需求无关的URL,将过滤后URL放到URL队列中。
  5. 在URL队列中,根据搜索算法确定URL的优先级,并确定下一步要爬取的URL地址。
  6. 得到新的URL,将新的URL重现上述爬取过程。
  7. 满足爬虫系统设置的停止条件或者无法获取新的URL地址时,停止爬取。