2020-09-01
如何设计一个网页爬虫系统?
给一个源网址,不断从web上抓取网页信息。
需要抓取多少页面,抓取时间,抓取容量?
每秒钟爬取1.6m个网页
1trillion个网页
每周全部重新爬取一次
10petabyte网页存储
平均每个网页大小10k
服务
crawler taskService storageService
存储
使用db存储任务
使用bigTable存储网页内容
多线程爬虫
分布式爬虫
如何设计一个网页爬虫系统?
给一个源网址,不断从web上抓取网页信息。
需要抓取多少页面,抓取时间,抓取容量?
每秒钟爬取1.6m个网页
1trillion个网页
每周全部重新爬取一次
10petabyte网页存储
平均每个网页大小10k
服务
crawler taskService storageService
存储
使用db存储任务
使用bigTable存储网页内容
多线程爬虫
分布式爬虫