爬虫基础知识
爬虫概念:
模拟浏览器发送网络请求,接受请求响应,一种按照一定的规则,自动地抓取互联网信息的程序
爬虫分类:
a. 通用爬虫:通常指搜索引擎的爬虫(例如:https://www.baidu.com)
b. 聚焦爬虫:针对特定网站的爬虫
robots协议:互联网中的一般约定(可以忽略)
HTTP概念:
## http:超文本(例如:音频,视频等)传输协议, 默认端口:80
HTTPS概念:
HTTP + SSL(安全套接字层), 既带有安全套接字层的超文本传输协议, 默认端口号:443
浏览器工作原理:
多次响应的结果,就会有多次请求(浏览器最终显示的结果是由多次请求后对应的多次响应共同渲染的结果)
爬虫是以发送一次请求对应的响应为准,来提取数据
HTTP常见请求头:
爬虫关注的常见请求头:
User-Agent 用户代理(浏览器名称)
Referer 面包屑(页面跳转处)
Cookie (Cookie)
爬虫关注的响应头:
Set-Cookie:后端一次向客户端set一条cookie
# 在响应中, 可以set多次cookie
# 客户端最多保存20条cookie
响应状态码:
字符集:
## 常用字符集: ASCII字符集, GB2312字符集, GBK字符集, ISO-8859-1字符集, utf8字符集
## 注:UTF-8是Unicode的实现方式之一,UTF-8是它是一种变长的编码方式,可以是1,2,3个字节
python3中的字符串:
a. str:unicode的呈现形式
b. bytes:二进制字节类型
str和bytes类型的互相转换:
a. str 使用encode方法转化为 bytes
b. bytes 通过decode转化为 str