网络爬虫的本质与HTTP状态码

2.1.1知识概述

使用HTTP GET协议获取数据,使用HTTP POST协议提交数据。

网络爬虫的本质与HTTP状态码

客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。

服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。

通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息由一个起始行,一个或者多个头域,一个指示头域结束的空行和可选的消息体组成。

2.1.2视频详情

网络爬虫的本质与HTTP状态码

2.1.3总结与补充

        无

2.1.4课堂提问与练习

        网络爬虫的本质?

2.1.5习题答案

        本质:模拟浏览器向服务器发送http请求。