您的位置: 首页 > 文章 > 爬虫

爬虫

分类: 文章 • 2024-09-26 09:10:23

什么是爬虫？

爬虫是请求网站并提取数据的自动化程序

爬虫的基本流程

发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型。
解析内容：得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析，可能是Json，可以直接转化为Json对象解析，可能是二进制数据，可以做保存或进一步处理
保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

Request包含的内容：

请求方式（主要有GET、POST两种类型）
请求URL（URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL唯一来确定）
请求头（包含请求时的头部信息，如User-Agent、Host、Cookies等信息）
请求体（请求时额外携带的数据，如表单提交时的表单数据）

Response包含的内容：

响应状态（有多种响应状态，如200代表成功、301跳转、404找不到页面、502服务器错误）
响应头（如内容类型、内容长度、服务器信息、设置Cookie等等）
响应体（最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等）

能抓怎样的数据?

网页文本（如HTML文档、Json格式文本等）
图片（获取到的是二进制文件，保存为图片格式）
视频（同为二进制文件，保存为视频格式即可）
其他（只要能请求到的，都能获取）

怎样解析？（解析方式）

直接处理（返回的内容比较简单，比如：字符串）
Json解析（通过AJAX加载的数据）
正则表达式
BeautifulSoup解析库
PyQuery解析库
XPath解析库

为什么抓到的数据与浏览器看到的不一样？

JavaScript渲染的问题
解决方式：
1. 分析Ajax请求
2. 使用Selenium/WebDriver驱动一个浏览器来模拟加载一个网页
3. Splash库

怎样保存数据？

文本（纯文本、Json、Xml等）
关系型数据库（如MySQL、Oracle、SQL Server等具有结构化表结构形式存储）
非关系型数据库（如MongoDB、Redis等Key-Value形式存储）
二进制文件（如图片、视频、音频等等直接保存成特定格式即可）