爬虫1-get与post请求

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。
资料来源：菜鸟-爬虫基础

一、使用requests或urllib用get方法进行请求http://www.baidu.com
这个就是使用requests使用get方法进行请求输出的结果这个就是请求后得到的网页html源码
2.使用urllib.request.open获得的response
2.如果是断开网络了，就是无效请求，则会返回404
3.什么是请求头，如何添加请求头，我已经用代码演示过了
urllib 和 urllib2 都是接受URL请求的相关模块，但是提供了不同的功能。两个最显著的不同如下：

urllib 仅可以接受URL，不能创建设置了headers 的Request 类实例；
但是 urllib 提供 urlencode 方法用来GET查询字符串的产生，而 urllib2 则没有。（这是 urllib 和 urllib2 经常一起使用的主要原因）

编码工作使用urllib的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib的unquote()函数。（注意，不是urllib2.urlencode() )

爬虫1-get与post请求

https://www.baidu.com/s?wd=传智播客
在其中我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词传智播客，于是我们可以尝试用默认的Get方式来发送请求。

爬虫1-get与post请求
批量爬取贴吧页面数据
首先我们创建一个python文件, tiebaSpider.py，我们要完成的是，输入一个百度贴吧的地址，比如：
百度贴吧LOL吧第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0
第二页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50
第三页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100
发现规律了吧，贴吧中每个页面不同之处，就是url最后的pn的值，其余的都是一样的，我们可以抓住这个规律。
简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。

先写一个main，提示用户输入要爬取的贴吧名，并用urllib.urlencode()进行转码，然后组合url，假设是lol吧，那么组合后的url就是：http://tieba.baidu.com/f?kw=lol

爬虫1-get与post请求

爬虫1-get与post请求

相关推荐