python爬虫学习笔记01-“抓包”——通过浏览器了解请求方式、请求头、响应头

在http协议中,浏览器发出一个请求,服务器才会给出一个相应,所以在做爬虫时,需要模拟浏览器发出请求,之后才能从服务器的相应中获取数据,请求的方式有很多种,最常用的有两种,get和post,get是从服务器获取数据,post是向服务器提交数据,如用户名密码等。
下面具体的查看一下如何通过浏览器分析请求
1、在chrome浏览器界面中右击——检查
2、在弹出窗口中,按下面步骤点击,可以看到浏览器的请求方式,其中2的位置有很多请求,这些请求应该就是我们后面需要提取的内容(当前的猜测)python爬虫学习笔记01-“抓包”——通过浏览器了解请求方式、请求头、响应头
3、请求方式下方的status-code表示请求是否成功,服务器是否返回正确的结果,200表示正常
4、下方的两个内容分别代表的就是请求头和相应头了,其中请求头很重要,请求头中的很多参数在编写爬虫时都会用到,例如User-Agent
python爬虫学习笔记01-“抓包”——通过浏览器了解请求方式、请求头、响应头
5、多个和headers同级别的标签可以帮助我们更全面的查看这个请求的内容、预览、响应等等
6、随便搜索一个内容,之后再查看下地址栏里面的地址,可以观察到地址变成了“https://www.baidu.com/s?wd=搜索内容&键值对&键值对”的形式,也就是说,如果我们直接按照上述范式进行搜索的话,也能够直接得到对应的页面