Python学习笔记(1)网络爬虫的核心名词

络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很*,不讲究顺序。

一、直观标注

在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。

Python学习笔记(1)网络爬虫的核心名词

Python学习笔记(1)网络爬虫的核心名词

二、整理箱

采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:“把网页上的内容整理好,存在一个箱子中”。这个整理箱显示在右边的一个浮动工作台上。

Python学习笔记(1)网络爬虫的核心名词

三、映射

“映射”这个词经常出现,表示:“把网页上的内容与整理箱中的标签建立联系”。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。

Python学习笔记(1)网络爬虫的核心名词