Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；

一、## Request中的方法

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；
#1.urllib.request.urlopen(urls) 请求的网页地址，返回的是网页响应对象；
#2.read() 将相应返回的对象中内容取出来；并解码成字符串（读出来的是字节）
此处注意的是：urlopen()中不支持重构USER-AGENT；所以我们可以使用 urllib.request.request(urls,header) 如下：

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例； #1添加user-agent用户代理请求头参数；获得完整的网页信息；
流程：
1、利用request（）方法构建请求的对象；
2、利用urlopen()方法获取响应的对象；
3、利用响应对象中read()方法读取响应的内容；

响应中常用的一些方法：
response.getcode() #返回请求网页的状态码；
response.geturl() #返回实际给我们返回数据的url地址；（防止重定向问题）

二、##Parse模块的使用

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；
1#此处urlencode() 方法中参数传的是字典；进行编码
2#还有一个urllib.parse. quote() 方法中参数传入的是字符串；进行编码

三、##完整实例：输入爬取内容；获得贴吧网页中的源代码信息

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；

结

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；

相关推荐