爬虫前奏

什么是网络爬虫

网络爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页,并将数据抓取下来,然后使用一定的规则来提取有价值的数据。

网络爬虫的分类

  • 通用爬虫
  • 聚焦爬虫

爬虫的实际例子

  • 搜索引擎(百度、谷歌、360搜索等)
  • 伯乐在线(一个基于爬虫开发的网站)
  • 惠惠购物助手
  • 数据分析与研究
  • 抢票、抢课软件等

浏览器发送一个http请求的过程

爬虫前奏

常用的http请求方法

爬虫前奏

请求头的常见参数

  • User-Agent
  • Referer
  • Cookie

常见的状态响应码

爬虫前奏
200:请求正常,服务器正常返回数据
301:永久重定向
302:临时重定向
403:服务器拒绝访问,权限不够
404:请求的URL在服务器上找不到
500:服务器内部错误