Python爬虫——相关概念

1.爬虫相关概念

通过编写程序，模拟浏览器上网，然后抓取网上感兴趣的数据的过程。

超文本传输协议（Hyper Text Transfer Protocol）
解释：Sever和Client之间进行数据交互的一种形式
HTTP工作原理
HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息
常用的请求头信息

请求头	作用
accept	浏览器通过这个头告诉服务器，它所支持的数据类型
Accept-Charset	浏览器通过这个头告诉服务器，它支持哪种字符集
Accept-Encoding	浏览器通过这个头告诉服务器，支持的压缩格式
Accept-Language	浏览器通过这个头告诉服务器，它的语言环境
Host	浏览器通过这个头告诉服务器，想访问哪台主机
If-Modified-Since:	浏览器通过这个头告诉服务器，缓存数据的时间
Referer	浏览器通过这个头告诉服务器，客户机是哪个页面来的防盗链
Connection	浏览器通过这个头告诉服务器，请求完后是断开链接还是何持链接
X-Requested-With	XMLHttpRequest 代表通过ajax方式进行访问
User-Agent	请求载体的身份标识

HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议，HTTPS是在HTTP上建立SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。
Python爬虫——相关概念

https://www.bilibili.com/video/BV18C4y1a7uk?from=search&seid=3650689839072756184