爬虫的基本介绍

定义

通俗的可以理解为一个简单的机器人。它的工作就是不断的浏览各种网站，读取数据，并将各种数据储存下来

分为通用爬虫和聚焦爬虫

通用爬虫：类似于搜索引擎，可以把它们理解为一个强大的爬虫，不断的抓住全网的各种数据进行分析
聚焦爬虫：针对指定的网站，需要获取网站数据而编写的专门的爬虫程序

基本可以理解为发送请求，获取响应，提取并储存数据，然后进行不断重复

爬虫的基本介绍

网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。