简单的爬虫架构

简单的爬虫架构
爬虫架构

URL管理器对将要爬取的url和已经爬取过的url进行管理。取出待爬取的url传给网页下载器。
网页下载器将url指定的网页下载下来,存储成字符串,传给网页解析器进行解析。
网页解析器从网页字符串内容中取出有价值的数据(也就是我们最终想要的数据)。