【网络】一次完整的HTTP请求过程
一次完整的HTTP请求过程
当我们在WEB浏览器的地址栏中输入:www.baidu.com,然后回车,然后发生了什么?
过程简述:
1.对www.baidu.com这个网址进行DNS域名解析
2.根据这个IP,找到对应的服务器,发起TCP的三次握手
3.建立TCP连接后发起HTTP请求
4.服务器响应HTTP请求,浏览器得到HTML代码
5.浏览器解析响应HTML代码,并请求HTML代码中的资源(如js,css,图片等)(先得到HTML代码,才能去找这些资源)
6.浏览器对页面进行渲染呈现给用户
7.服务器关闭TCP连接
注:
1.DNS怎么找到域名的?
DNS域名解析采用递归查询的方式,过程是:先去找自身的DNS缓存-->缓存找不到就去找根域名服务器-->根域名又会去找下一级,这样递归查找之后,找到了,给web服务器
2.为什么HTTP要基于TP协议来实现?
TCP是一个端到端的可靠的面向连接的协议,HTTP是基于传输层TCP不用担心数据传输的各种问题(当发生错误时,会重传)
3.最后一步浏览器是如何对页面进行渲染的?
1)解析HTML文件构成DOM树
2)解析CSS文件构成渲染树
3)边解析,边渲染
4)JS单线程运行,JS有可能修改DOM结构,意味着JS执行完成前,后续所有资源的下载是没有必要的,所以JS是单线程,会阻塞后续资源的下载。
各个步骤具体细节
1.DNS解析(域名解析服务器)
1)首先会搜索浏览器自身的DNS缓存(缓存时间比较短,大概只有1分钟,且只能容纳1000条缓存);
2)如果浏览器自身的缓存里面没有找到,那么浏览器会搜索操作系统自身的DNS缓存,而操作系统也有一个域名解析的过程,在windows中可以通过C盘的一个hosts文件来设置,如果在这里指定了一个域名对应的IP地址,那浏览器会使用这个IP地址;
小总结:前两个步骤都是在本机完成的,所在在图中没有表示出来,如果在本机仍然无法完成域名解析,就会真正请求域名服务器来解析这个域名了。
3)在我们的网络配置中都会有“DNS服务器地址”这一项,这个地址就用于解决前面所说的如果两个过程无法解析时要怎么办,操作系统会把这个域名发送给这里设置的LDNS(Local DNS),也就是本地区的域名服务器。(这个DNS通常都提供给你本地互联网接入的一个DNS解析服务,例如你是在学校接入互联网,那么你的DNS服务器肯定在你的学校,如果你是在一个小区接入互联网的,那这个DNS就是提供给你接入互联网的应用提供商,即电信或者联通,也就是通常所说的SPA)
小总结:这个专门的域名解析服务器性能都会很好,它们一般都会缓存域名解析结果,当然缓存时间是受域名的失效时间控制的,一般缓存空间不是影响域名失效的主要因素。大约80%的域名解析都到这里就已经完成了,所以LDNS主要承担了域名的解析工作。
4)如果LDNS仍然没有命中,就直接到RootServer域名服务器请求解析。
5)根域名服务器返回给本地域名服务器一个所 查询域的主域名服务器(gTLdServer)地址。gTLD是国际顶级域名服务器,如.com、 .cn、.org 等,全球只有(台左右。
6)本地域名服务器(Local DNS Server) 再向上-步返回的gTLD服务器发送请求。
7)接受请求的gTLD服务器查找并返回此域名对应的Name Server域名服务器的地址,这个Name Server通常就是你注册的域名服务器,例如你在某个域名服务提供商申请的域名,那么这个域名解析任务就由这个域名提供商的服务器来完成。
8)NameServer域名服务器会查询存储的域名和IP的映射关系表,在正常情况下都根据域名得到目标IP记录,连同一个TTl值返回给DNS Server域名服务器。
9)返回该域名对应的IP和TTL值,Local DNS Server 会缓存这个域名和IP的对应关系,缓存的时间由TTL值控制。
10)把解析的结果返回给用户,用户根据TTL值缓存在本地系统缓存中,域名解析过程结束。
在实际的DNS解析过程中,可能还不止这10个步骤,如Name Sever也可能有多或者有一个GTM来负载均衡控制,这都有可能会影响域名解析的过程。
总结: 一般情况前5步是可以解析出域名的。
DNS优化两个方面:DNS缓存,DNS负载均衡
2.TCP建立连接(三次握手)
拿到域名对应的IP地址之后,User-Agent(一般指浏览器)会以一个随机端口(1024<端口<65535)向服务器的WEB程序(常用的有httpd,nginx)等的80端口。这个连接请求(原始的http请求经过TCP/IP4层模型的层层封包)到达服务器端后(这中间有各种路由设备,局域网内除外),进入到网卡,然后是进入到内核的TCP/IP协议栈(用于识别连接请求,解封包,一层一层的剥开),还有可能要经过Netfilter防火墙(属于内核的模块)的过滤,最终达到WEB程序,最终建立了TCP/IP的连接
具体参考博客:https://blog.****.net/qq_43669007/article/details/105316434
3.建立TCP连接之后,发起HTTP请求
HTTP请求报文由四部分组成:请求行,请求头、空格、请求正文
请求行:用于描述客户端的请求方式(GET/POST等),请求的资源名称(URL)以及使用的HTTP协议的版本号
请求头:用于描述客户端请求哪台主机及其端口,以及客户端的一些环境信息等
空行:空行就是\r\n (POST请求时候有)
请求正文:当使用POST等方法时,通常需要客户端向服务器传递数据。这些数据就储存在请求正文中(GET方式是保存在url地址后面,不会放到这里)
4.服务器端响应HTTP请求,浏览器得到HTML代码
HTTP响应由四部分组成:状态码,响应头,空行,和实体内容
状态码:状态码用于表示服务器对请求的处理结果
响应头:响应头用于描述服务器的基本信息,以及客户端如何处理数据
空行:空行就是\r\n (POST请求时候有)
实体内容:服务器返回给客户端的数据
5.浏览器解析HTML代码,并请求HTML代码中的资源
浏览器拿到html文件后,就开始解析其中的html代码,遇到js/css/image等静态资源时,就向服务器端去请求下载(会使用多线程下载,每个浏览器的线程数不一样),这是时候就用上 keep-alive特性了,建立一次HTTP连接,可以请求多个资源,下载资源的顺序就是按照代码里面的顺序,但是由于每个资源大小不一样,而浏览器又是多线程请求请求资源,所以这里显示的顺序并不一定是代码里面的顺序。
6.浏览器对页面进行渲染呈现给用户
最后,浏览器利用自己内部的工作机制,把请求的静态资源和html代码进行渲染,渲染之后呈现给用户
浏览器是一个边解析边渲染的过程。首先浏览器解析HTML文件构建DOM树,然后解析CSS文件构建渲染树,等到渲染树构建完成后,浏览器开始布局渲染树并将其绘制到屏幕上。这个过程比较复杂,涉及到两个概念: reflow(回流)和repain(重绘)。DOM节点中的各个元素都是以盒模型的形式存在,这些都需要浏览器去计算其位置和大小等,这个过程称为relow;当盒模型的位置,大小以及其他属性,如颜色,字体,等确定下来之后,浏览器便开始绘制内容,这个过程称为repain。页面在首次加载时必然会经历reflow和repain。reflow和repain过程是非常消耗性能的,尤其是在移动设备上,它会破坏用户体验,有时会造成页面卡顿。所以我们应该尽可能少的减少reflow和repain。
JS的解析是由浏览器中的JS解析引擎完成的。JS是单线程运行,JS有可能修改DOM结构,意味着JS执行完成前,后续所有资源的下载是没有必要的,所以JS是单线程,会阻塞后续资源下载
7.服务器关闭TCP连接
在HTTP1,0中,一旦Web服务器向浏览器发送了请求数据,它就要关闭TCP连接,但是在HTTP1.1中,浏览器或者服务器在其头信息加入了这行代码:Connection:Keep-alive
TCP连接在发送后将仍然保持打开状态,于是,浏览器可以继续通过相同的连接发送请求。保持连接节省了为每个请求建立新连接所需的时间,还节约了网络带宽。
参考:https://blog.****.net/baidu_36697353/article/details/100008544