初识爬虫(一)

爬虫

爬虫概念:

  • 爬虫模拟客户端发送请求, 接受响应,按照一定的规则 ,自动抓取互联网程序
  • 原则上 客户端 能做的事情 , 爬虫都可以做

爬虫作用:

  • 数据采集
  • 软件测试
  • 网站投票等

爬虫流程:
初识爬虫(一)

  • 获取一个 url 地址
  • 向目标 url 地址发送请求,并获取响应
  • 如果从响应中提取 url 地址,则继续发送请求
  • 获取响应
  • 如果从响应中提取数据,则将数据进行保存

requests模块:

通过使用requests 模拟发送请求
已虚拟环境为例:
pip install requests
初识爬虫(一)
查看虚拟环境下载包:
pip list
初识爬虫(一)

使用requests模块发送请求:

  1. 发送get请求:
    r = requests.get(‘https://postman-echo.com/get’)
  2. 发送post请求:
    r = requests.post(‘https://postman-echo.com/post’)
  3. 发送put请求:
    r = requests.put(‘https://postman-echo.com/put’)
  4. 发送delete请求:
    r = requests.delete(‘https://postman-echo.com/delete’)

获取响应状态码、响应头、响应体
初识爬虫(一)

我们也可以自己设置我们的编码方法:
对象.encoding = ‘编码方法’
初识爬虫(一)

这里你们可能看不出编码不同的不同结果,请把结果向后拉:
初识爬虫(一)

不同编码结果也不同

获取响应对象的json方法

初识爬虫(一)
对象.json()
通过响应对象的 json 方法获取 json 数据
如果json解码失败 ,对象.json()会抛出一个异常。

传递URL参数
结果会把我们传递 url 参数时, 通过响应 响应体返回
初识爬虫(一)
我们传递url参数使用 params 参数传递。

定制请求头
初识爬虫(一)
通过 headers 参数传递自定义请求头

传递cookies到服务器初识爬虫(一)
通过 cookies 参数发送 cookies

通过post请求 传递json数据
初识爬虫(一)
将 数据 传递给 json