Python爬虫入门2--请求(HTTP)
简述HTTP协议--超文本传输协议
HTTP的传输主要通过HTTP报文实现的:
1.客户端(比如浏览器):发送请求报文到服务器
2.服务器 :接收请求报文并处理
3.服务器:发送响应报文给客户端
4.客户端:处理接收到的内容
HTTP客户端发送请求有两种方式:
1)一种是什么都不发送,就是get方法,例如直接以游客身份打开淘宝网首页
2)一种是客户端发送数据,然后接收响应报文。例如输入账号密码登录淘宝网首页,这是post方法
如果返回1++,说明请求正在处理中;
如果返回2++,说明正常请求成功;
如果返回4++,客户端异常;
如果返回5++,服务器异常;
request入门
1.get方法:
向新浪网发出get请求
结果截图:
2.post方法(带参数的)
post在于需要把从客户端输入的数据,添加到参数列表中,post到指定的地址
不同网页需要的参数是不同的,我尝试了登录学校的流量登录界面,用post方法也是可以成功,但是考虑到对学校信息的保护,就不便透露参数啦
3.下载文件
requests.get('http://www.cninfo.com.cn/finalpage/2015-03-13/1200694563.PDF',stream = True) #请求
r3.raw.read() #读取文件(最好在括号里面加一下个数,只读前面几个,不然…死循环)
4.HTTP封装
下面调用这个函数就是直接传入url
例如
s=”http://baidu.com“
调用封装完的函数
print(getHTML(s))