爬虫去重思路

爬虫中什么业务需要使用去重

1 防止发出重复的请求
2 防止存储重复的数据

去重实现的基本原理

根据给定的判断依据和给定的去重容器,将原始数据逐一进行判断,判断去重容器中是否有该数据。如果没有就将该数据对应的判断依据加入去重容器中,同时标记该数据不是重复数据。否则不添加同时标记该数据为重复数据。

判断依据: (原始数据,原始数据特征值)

去重容器: (存储判断依据)

根据原始数据进行去重判断

爬虫去重思路

根据数据的特征进行去重判断

爬虫去重思路

临时去重容器与持久化去重容器

临时去重容器是指 list set 等编程语言中的数据结构存储去重数据,一旦程序关闭或者是重启之后,去重容器中的数据就被回收了。

优点是实现简单方便,缺点是无法共享以及持久化。

持久化去重容器使用 redis 、mysql 等数据库存储去重数据。

后记

更新时间: 2020-02-03