2020-09-01

如何设计一个网页爬虫系统?
给一个源网址,不断从web上抓取网页信息。

需要抓取多少页面,抓取时间,抓取容量?
每秒钟爬取1.6m个网页
1trillion个网页
每周全部重新爬取一次
10petabyte网页存储
平均每个网页大小10k

服务
crawler taskService storageService

存储
使用db存储任务
使用bigTable存储网页内容

2020-09-01
多线程爬虫

分布式爬虫