爬虫基本原理和概念

GET与POST差别	GET	POST
请求信息	请求信息在链接中	请求信息包含在Form Data
构建请求方式	输入URL回车直接访问	通过构造表单点击表单提交

2.请求URL（统一资源定位符）

如一个网页文档，一张图片，一个视频都可以用URL唯一来确定

3.请求头（请求的配置信息）

包含请求时的头部信息

爬虫基本原理和概念

cookie:保持登录会话

User-Agent：指定浏览器请求头

告诉服务器请求的文档类型，携带的cookie，浏览器配置，服务器判断信息是否合法，根据解析结果返回相应的文件内容,爬虫一般加上Request Headers以保证请求正常运行

4.请求体

请求时额外携带的数据

在POST请求方式中的Form Data中

Response中包含什么

1.响应状态

200：正常

300以上：跳转

500以上：服务器处理错误

2.响应头

内容类型，内容长度，服务器信息，设置cooike等

爬虫基本原理和概念

3.响应体

包含请求资源的内容，如网页HTML，图片二进制数据等

能抓怎样的数据

网页文本 HTML文档，Json格式文本等

图片获取到的是二进制流，将二进制文件保存为图片格式

with open('文件名','wb') as f:

f.write(二进制流)

视频同图片为二进制数据

其他能请求到的都能获取

解析方式

1.直接处理

2.Json解析

3.正则表达式

4.BeautifulSoup

5.PyQuery

6.XPath

保存数据

1.文本 纯文本，JSon，Xml等

2.关系型数据库 如MySQL，Oracle，SQL Sever等具有结构化表结构形式存储

3.非关系型数据库 如MongoDB，Redis等Key-Value形式存储

4.二进制文件

爬虫基本原理和概念

爬虫基本流程

1.发起请求

2.获取相应内容

3.解析内容

4.保存数据

Request&Response

Request中包含什么

1.请求方式

2.请求URL（统一资源定位符）

3.请求头（请求的配置信息）

4.请求体

Response中包含什么

1.响应状态

2.响应头

3.响应体

能抓怎样的数据

解析方式

保存数据

相关推荐