您的位置: 首页 > 文章 > 爬虫前奏

爬虫前奏

分类: 文章 • 2023-01-26 00:19:43

什么是网络爬虫

网络爬虫是一个模拟人类请求网站行为的程序，可以自动请求网页，并将数据抓取下来，然后使用一定的规则来提取有价值的数据。

网络爬虫的分类

通用爬虫
聚焦爬虫

爬虫的实际例子

搜索引擎（百度、谷歌、360搜索等）
伯乐在线（一个基于爬虫开发的网站）
惠惠购物助手
数据分析与研究
抢票、抢课软件等

浏览器发送一个http请求的过程

爬虫前奏

常用的http请求方法

爬虫前奏

请求头的常见参数

User-Agent
Referer
Cookie

常见的状态响应码

爬虫前奏
200：请求正常，服务器正常返回数据
301：永久重定向
302：临时重定向
403：服务器拒绝访问，权限不够
404：请求的URL在服务器上找不到
500：服务器内部错误