您的位置: 首页 > 文章 > 爬虫的原理及过程

爬虫的原理及过程

分类: 文章 • 2024-07-13 20:02:10

通用网络爬虫
一、实现过程如下图所示
爬虫的原理及过程
二、实现原理如下

获取初始的URL。初始的URL地址可以人为的指定，也可以由用户指定的某几个或者某个初始爬取网页决定。
根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后，解析网页信息内容将网页信息内容存储到原始数据库中，并且在当前获得的网页信息里面发现新的URL地址，存放到一个URL队列里面。
从URL队列中读取新的URL，从而获得新的网页信息，同时在新网页中获取新的URL，并重复上述的爬取过程。
满足爬虫系统设置的停止条件时，停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示
爬虫的原理及过程
二、实现原理如下

制定爬取的方案。
设定初始的URL。
根据初始的URL抓取页面，并获得新的URL。
从新的URL中过滤掉与需求无关的URL，将过滤后URL放到URL队列中。
在URL队列中，根据搜索算法确定URL的优先级，并确定下一步要爬取的URL地址。
得到新的URL，将新的URL重现上述爬取过程。
满足爬虫系统设置的停止条件或者无法获取新的URL地址时，停止爬取。