爬虫的基本介绍

定义

通俗的可以理解为一个简单的机器人。它的工作就是不断的浏览各种网站,读取数据,并将各种数据储存下来

基本分类

分为通用爬虫和聚焦爬虫

通用爬虫:类似于搜索引擎,可以把它们理解为一个强大的爬虫,不断的抓住全网的各种数据进行分析
聚焦爬虫:针对指定的网站,需要获取网站数据而编写的专门的爬虫程序

基本工作原理

基本可以理解为发送请求,获取响应,提取并储存数据,然后进行不断重复

爬虫的基本介绍

Robots协议

网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

必备知识体系

计算机网络原理

  1. HTTP和HTTPS
  2. HTTP的请求形式与过程
  3. HTTP响应
  4. GET和POST
  5. 常见编码格式

requests库的基本使用

常用抓包工具的使用

数据库的基本使用

re库的基本使用

xpath和xml类库的使用

Selenium工具使用

Scrapy框架的基本使用