天蛛爬虫学习笔记——HTTP基础知识

天蛛爬虫学习笔记——HTTP基础知识

1.URI、URL、URN的关系
URI全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符,URN全称为 Universal Resource Name,即统一资源名称。其中URL和URN都是URI的子集,由于URN只定义名称没有标记位置,所以用的比较少,通常用的都是URL。例如:https://editor.****.net/ 就是一个URL

2、超文本
在Chrome中按F12查看的网页HTML源代码就可以看做是超文本

3、HTTP、HTTPS
HTTP是超文本传说协议,HTTPS是HTTP的安全版,目前大部分网站都采用HTTPS协议

4、请求
包括4个内容:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)
4.1、常用的请求方法:GET、POST
GET请求的参数包含在URL中,敏感信息建议用POST请求,会将信息放在表单中
4.2请求头:用来说明服务器需要的信息
Cookies:为了辨别用户进行会话跟踪储存在本地的数据,浏览器请求站点信息的时候会在请求头加上cookies信息,服务器就能识别用户身份
Referer:标记信息来源,可以做来源跟踪
User_Agent:简称UA,可是使服务器识别客户使用的浏览器类型
4.3请求体
请求体的内容一般是POST的表单数据

5、响应
5.1、响应状态码Ststus Code,200表示连接成功
天蛛爬虫学习笔记——HTTP基础知识
5.2、响应体
爬虫中要解析的就是响应体的内容