爬虫基础篇

1 爬虫的基本流程

爬虫的核心过程是模拟浏览器与服务器交互的过程,首先向服务器发送请求(如HTTP请求、HTTPS请求等),获取到服务器响应结果后将其转化为程序语言可提取对象,然后从对象中解析出的想要的内容以及下一步访问的网址,将内容格式化存储在本地文件或者数据库中,继续向下一个网址发送请求重复上述操作,直至无下一网址可访问或满足既定的条件后爬取完毕。

爬虫基础篇

2 一个完整的HTTP请求过程

输入网址->浏览器会自动解析出网址中的域名->解析出域名对应的IP(DNS寻址)->根据IP和端口浏览器会与服务器建立TCP连接->浏览器向服务器发起HTTP请求->服务器向浏览器响应HTML代码->浏览器解析出HTML并请求HTML中的资源(如JS、CSS、图片等)->浏览器对页面进行渲染呈现给访问者

爬虫基础篇

2.1 DNS寻址

浏览器解析出网址的域名时,首先会查询自身的DNS缓存中是否有该域名对应的IP,如果没有就会继续查询浏览器所在操作系统的DNS缓存中是否存在该域名对应的IP,如果没有就会查询操作系统hosts文件中是否有该域名对应的IP,如果仍然没有则会进行DNS递归查询或者DNS迭代查询。

爬虫基础篇

2.1.1 DNS递归查询

爬虫基础篇
DNS递归查询模式下DNS客户端向本地名称服务器(即客户机配置的首选DNS服务器如Google运营商的114.114.114.114)发送域名解析请求后(如发送www.baidu.com的域名解析请求)会一直处于等待状态:

  1. 本地名称服务器收到解析请求后,会根据其本地配置的根域服务器IP地址向根名称服务器发送www.baidu.com域名解析请求,根名称服务器接收到请求后,会告诉本地名称服务器com名称服务器的IP地址;
  2. 本地域名服务器收到com名称服务器的IP地址后,又向com名称服务器发送www.baidu.com域名解析请求,com名称服务器接收到请求后,会告诉本地名称服务器baidu.com名称服务器的IP地址;
  3. 本地域名服务器收到baidu.com名称服务器的IP地址后,又向baidu.com名称服务器发送www.baidu.com域名解析请求,baidu.com名称服务器接收到请求后,会告诉本地名称服务器www.baidu.com名称服务器的IP地址;
  4. 本地域名服务器收到www.baidu.com名称服务器的IP地址后,又向www.baidu.com名称服务器发送www.baidu.com域名解析请求,www.baidu.com名称服务器接收到请求后,会告诉本地名称服务器www.baidu.com域名映射的IP地址。

2.1.2 DNS迭代查询

爬虫基础篇
DNS迭代查询模式下DNS客户端向本地名称服务器(即客户机配置的首选DNS服务器如Google运营商的114.114.114.114)发送域名解析请求后(如发送www.baidu.com的域名解析请求)会收到本地名称服务器返回的根名称服务器的IP地址:

  1. DNS客户端收到本地名称服务器返回的IP地址后,会向根名称服务器发送www.baidu.com域名解析请求,根名称服务器接收到请求后,会告诉DNS客户端com名称服务器的IP地址;
  2. DNS客户端收到com名称服务器的IP地址后,又向com名称服务器发送www.baidu.com域名解析请求,com名称服务器接收到请求后,会告诉DNS客户端baidu.com名称服务器的IP地址;
  3. DNS客户端收到baidu.com名称服务器的IP地址后,又向baidu.com名称服务器发送www.baidu.com域名解析请求,baidu.com名称服务器接收到请求后,会告诉DNS客户端www.baidu.com名称服务器的IP地址;
  4. DNS客户端收到www.baidu.com名称服务器的IP地址后,又向www.baidu.com名称服务器发送www.baidu.com域名解析请求,www.baidu.com名称服务器接收到请求后,会告诉DNS客户端www.baidu.com域名映射的IP地址。

2.2 建立TCP连接

2.2.1 TCP报文格式简介

爬虫基础篇
其中比较重要的字段有:

(1)序号(sequence number):Seq序号,占32位,用来标识从TCP源端向目的端发送的字节流,发起方发送数据时对此进行标记。

(2)确认号(acknowledgement number):Ack序号,占32位,只有ACK标志位为1时,确认序号字段才有效,Ack=Seq+1。

(3)标志位(Flags):共6个,即URG、ACK、PSH、RST、SYN、FIN等,具体含义如下:

  • URG:紧急指针(urgent pointer)有效。
  • ACK:确认序号有效。
  • PSH:接收方应该尽快将这个报文交给应用层。
  • RST:重置连接。
  • SYN:发起一个新连接。
  • FIN:释放一个连接。

需要注意的是:

  • 不要将确认序号Ack与标志位中的ACK搞混了。
  • 确认方Ack=发起方Seq+1,两端配对。

2.2.2 TCP连接之三次握手

爬虫基础篇
握手之前主动打开连接的客户端结束CLOSED阶段,被动打开的服务器端也结束CLOSED阶段,并进入LISTEN阶段。随后开始“三次握手”:

(1)【告诉服务器端,客户端想要与你建立连接】客户端向服务器端发送一段TCP报文(SYN=1,seq=x),客户端进入SYN-SENT阶段;

(2)【告诉客户端,服务器端已经知道你想建立连接】服务器端接收到来自客户端的TCP报文之后,结束LISTEN阶段,并返回一段TCP报文(SYN=1,ACK=1,seq=y,ack=x+1);

(3)【告诉服务器端,客户端已经知道你同意建立连接】客户端接收到来自服务器端的确认收到数据的TCP报文之后,明确了从客户端到服务器的数据传输是正常的,结束SYN-SENT阶段,并返回最后一段TCP报文(ACK=1,seq=x+1,ack=y+1),随后客户端进入ESTABLISHED阶段;服务器收到来自客户端的“确认收到服务器数据”的TCP报文之后,明确了从服务器到客户端的数据传输是正常的。结束SYN-SENT阶段,进入ESTABLISHED阶段。

在客户端与服务器端传输的TCP报文中,双方的确认号Ack和序号Seq的值,都是在彼此Ack和Seq值的基础上进行计算的,这样做保证了TCP报文传输的连贯性。一旦出现某一方发出的TCP报文丢失,便无法继续"握手",以此确保了"三次握手"的顺利完成,此后客户端和服务器端进行正常的数据传输,这就是“三次握手”的过程。
爬虫基础篇

2.2.3 TCP连接之四次挥手

爬虫基础篇