您的位置: 首页 > 文章 > 简单的爬虫架构 简单的爬虫架构 分类: 文章 • 2023-01-25 00:30:08 爬虫架构 URL管理器对将要爬取的url和已经爬取过的url进行管理。取出待爬取的url传给网页下载器。网页下载器将url指定的网页下载下来,存储成字符串,传给网页解析器进行解析。网页解析器从网页字符串内容中取出有价值的数据(也就是我们最终想要的数据)。