Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例;
一、## Request中的方法
#1.urllib.request.urlopen(urls) 请求的网页地址,返回的是网页响应对象;
#2.read() 将相应返回的对象中内容取出来;并解码成字符串(读出来的是字节)
此处注意的是:urlopen()中不支持重构USER-AGENT;所以我们可以使用 urllib.request.request(urls,header) 如下:
#1添加user-agent用户代理请求头参数;获得完整的网页信息;
流程:
1、利用request()方法构建请求的对象;
2、利用urlopen()方法获取响应的对象;
3、利用响应对象中read()方法读取响应的内容;
响应中常用的一些方法:
response.getcode() #返回请求网页的状态码;
response.geturl() #返回实际给我们返回数据的url地址;(防止重定向问题)
二、##Parse模块的使用
1#此处urlencode() 方法中参数传的是字典;进行编码
2#还有一个urllib.parse. quote() 方法中参数传入的是字符串;进行编码
三、##完整实例:输入爬取内容;获得贴吧网页中的源代码信息
结