Python爬虫——相关概念

1.爬虫相关概念

1.1 什么是爬虫

通过编写程序,模拟浏览器上网,然后抓取网上感兴趣的数据的过程。

1.2 分类

  • (1) 通用爬虫
    抓取系统重要组成部分,是一整张页面数据
  • (2) 聚焦爬虫
    建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容
  • (3) 增量式爬虫
    检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据

1.3 爬虫的矛与盾

  • 反爬机制:门户网站可制定相应的策略或技术手段防止爬虫程序进行网站数据的爬取(robots.txt协议);
  • 反反爬机制:通过制定相关策略或技术,**反爬机制。

1.4 HTTP&HTTPS

1.4.1 http协议

  • 超文本传输协议(Hyper Text Transfer Protocol)

  • 解释:Sever和Client之间进行数据交互的一种形式

  • HTTP工作原理

  • HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息
    Python爬虫——相关概念

  • 常用的请求头信息

请求头 作用
accept 浏览器通过这个头告诉服务器,它所支持的数据类型
Accept-Charset 浏览器通过这个头告诉服务器,它支持哪种字符集
Accept-Encoding 浏览器通过这个头告诉服务器,支持的压缩格式
Accept-Language 浏览器通过这个头告诉服务器,它的语言环境
Host 浏览器通过这个头告诉服务器,想访问哪台主机
If-Modified-Since: 浏览器通过这个头告诉服务器,缓存数据的时间
Referer 浏览器通过这个头告诉服务器,客户机是哪个页面来的 防盗链
Connection 浏览器通过这个头告诉服务器,请求完后是断开链接还是何持链接
X-Requested-With XMLHttpRequest 代表通过ajax方式进行访问
User-Agent 请求载体的身份标识
  • 常用的响应头信息
响应头 作用
Location 服务器通过这个头,来告诉浏览器跳到哪里
Server 服务器通过这个头,告诉浏览器服务器的型号
Content-Encoding 服务器通过这个头,告诉浏览器,数据的压缩格式
Content-Length 服务器通过这个头,告诉浏览器回送数据的长度
Content-Language 服务器通过这个头,告诉浏览器语言环境
Content-Type 服务器通过这个头,告诉浏览器回送数据的类型
Refresh 服务器通过这个头,告诉浏览器定时刷新
Content-Disposition 服务器通过这个头,告诉浏览器以下载方式打数据
Transfer-Encoding 服务器通过这个头,告诉浏览器数据是以分块方式回送的
Expires -1 控制浏览器不要缓存
Cache-Control no-cache
Pragma no-cache

1.4.2 https协议

HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议,HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。
Python爬虫——相关概念

1.5 网页构成

  • HTML:超文本标记语言,构成网页框架
  • CSS:层叠样式表,网页样式
  • Jscript:活动脚本语言,功能网页

参考资料

https://www.bilibili.com/video/BV18C4y1a7uk?from=search&seid=3650689839072756184