爬虫前奏
什么是网络爬虫
网络爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页,并将数据抓取下来,然后使用一定的规则来提取有价值的数据。
网络爬虫的分类
- 通用爬虫
- 聚焦爬虫
爬虫的实际例子
- 搜索引擎(百度、谷歌、360搜索等)
- 伯乐在线(一个基于爬虫开发的网站)
- 惠惠购物助手
- 数据分析与研究
- 抢票、抢课软件等
浏览器发送一个http请求的过程
常用的http请求方法
请求头的常见参数
- User-Agent
- Referer
- Cookie
常见的状态响应码
200:请求正常,服务器正常返回数据
301:永久重定向
302:临时重定向
403:服务器拒绝访问,权限不够
404:请求的URL在服务器上找不到
500:服务器内部错误