爬虫的基本介绍
文章目录
定义
通俗的可以理解为一个简单的机器人。它的工作就是不断的浏览各种网站,读取数据,并将各种数据储存下来
基本分类
分为通用爬虫和聚焦爬虫
通用爬虫:类似于搜索引擎,可以把它们理解为一个强大的爬虫,不断的抓住全网的各种数据进行分析
聚焦爬虫:针对指定的网站,需要获取网站数据而编写的专门的爬虫程序
基本工作原理
基本可以理解为发送请求,获取响应,提取并储存数据,然后进行不断重复
Robots协议
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
必备知识体系
计算机网络原理
- HTTP和HTTPS
- HTTP的请求形式与过程
- HTTP响应
- GET和POST
- 常见编码格式