本文内容来源于慕课网爬虫视频

一 python爬虫基本架构

1.1 基本架构

一个完整的爬虫程序包含以下以下四个部件：调度器、URL管理器、网页下载器、网页解析器。

python爬虫之一_基本架构

调用URL管理器、URL下载器、URL解析器，并输出数据

维护待爬取集合和已爬取集合：判断得到的URL是否已爬取、将新的URL添加到待爬取集合、判断待爬取集合是否还有URL、获取待爬取URL、将URL从待爬取集合移动到已爬取集合

待爬取和已爬取集合的实现方式：

模拟用户操作，发送请求接收响应，将URL对应的网页以HTML的形式下载到本地；

对下载到本地的HTML文件进行解析，提取目标数据、新的URL；

正则表达式：将HTML文档内容视为一整个字符串，进行字符串模式匹配；
结构化解析：将HTML文档结构视为DOM树，结点涵盖HTML标签、属性、文本值三个方面，从这三个方面解析查找；依赖包：BeautifulSoup、html.paser、xpath。

python爬虫之一_基本架构