Python爬虫入门2--请求（HTTP）

简述HTTP协议--超文本传输协议

HTTP的传输主要通过HTTP报文实现的：

1.客户端（比如浏览器）：发送请求报文到服务器

2.服务器：接收请求报文并处理

3.服务器：发送响应报文给客户端

4.客户端：处理接收到的内容

HTTP客户端发送请求有两种方式：

1）一种是什么都不发送，就是get方法，例如直接以游客身份打开淘宝网首页

2）一种是客户端发送数据，然后接收响应报文。例如输入账号密码登录淘宝网首页，这是post方法

如果返回1++,说明请求正在处理中;

如果返回2++，说明正常请求成功；

如果返回4++，客户端异常;

如果返回5++，服务器异常;

request入门

1.get方法：

向新浪网发出get请求

Python爬虫入门2--请求（HTTP）

结果截图：

Python爬虫入门2--请求（HTTP）

2.post方法（带参数的）

post在于需要把从客户端输入的数据，添加到参数列表中，post到指定的地址

Python爬虫入门2--请求（HTTP）

不同网页需要的参数是不同的，我尝试了登录学校的流量登录界面，用post方法也是可以成功，但是考虑到对学校信息的保护，就不便透露参数啦

3.下载文件

requests.get('http://www.cninfo.com.cn/finalpage/2015-03-13/1200694563.PDF',stream = True) #请求
r3.raw.read() #读取文件（最好在括号里面加一下个数，只读前面几个，不然…死循环）

4.HTTP封装

Python爬虫入门2--请求（HTTP）

下面调用这个函数就是直接传入url

例如

s=”http://baidu.com“

调用封装完的函数

print(getHTML(s))

Python爬虫入门2--请求（HTTP）