爬虫概念：

模拟浏览器发送网络请求，接受请求响应，一种按照一定的规则，自动地抓取互联网信息的程序

a. 通用爬虫：通常指搜索引擎的爬虫（例如：https://www.baidu.com）
b. 聚焦爬虫：针对特定网站的爬虫
爬虫基础知识

## http：超文本(例如：音频，视频等)传输协议， 默认端口：80

爬虫基础知识

爬虫基础知识

User-Agent  用户代理(浏览器名称）
Referer 面包屑(页面跳转处)
Cookie （Cookie）

Set-Cookie：后端一次向客户端set一条cookie
                    # 在响应中， 可以set多次cookie
                    # 客户端最多保存20条cookie

爬虫基础知识

## 常用字符集： ASCII字符集， GB2312字符集， GBK字符集， ISO-8859-1字符集， utf8字符集
## 注：UTF-8是Unicode的实现方式之一，UTF-8是它是一种变长的编码方式，可以是1，2，3个字节

a. str：unicode的呈现形式
b. bytes：二进制字节类型

a. str 使用encode方法转化为 bytes
b. bytes 通过decode转化为 str