Linux下CDN及Varnish的介绍(企业级CDN)

企业流程:

client——>cdn(squid/varnish)——>HA+F5/LVS(4)——>HA+nginx/haproxy(7)——>web(apache/nginx)——>app(php/jcp)——>DB(mysql/redis)

zzbix  openstack   kvm/docker/k8s(swarm)   hadoop

一.varnish简介

1.varnish是什么?

  • Varnish是一款高性能且开源的反向代理服务器和http加速器(缓存服务器)。Varnish使用内存缓存文件来减少响应时间和网络带宽消耗。

2.varnish的特点

  • Varnish访问速度更快,Varnish采用了“Visual Page Cache”技术,所有缓存数据都直接从内存读取,而squid是从硬盘读取因而Varnish在访问速度方面会更快。(所以说varnish有个缺点,当varnish进程一旦被down,缓存数据都会从内存中完全释放,此时所有请求都会发送到后端服务器,在高并发情况下,会给后端服务器造成很大压力。)
  • Varnish可以支持更多的并发连接,因为Varnish的TCP连接释放要比Squid快。因而在高并发连接情况下可以支持更多TCP连接。
  • Varnish可以通过管理端口,使用正则表达式批量的清除部分缓存,而Squid是做不到的。
  • squid属于是单进程使用单核CPU,但Varnish是通过fork形式打开多进程来做处理,所以是合理的使用所有核来处理相应的请求。

     事实上,varnish整体的性能将会高于squid;

  • 进程
  1. 主进程master(management)
  2. 子进程child(worker)
  • 函数
  • vcl_recv

在请求开始时候被调用,在请求已经被接收到并且解析后调用。目的就是决定是否处理这个请求,怎么处理,使用哪个后端。

vcl_recv以return结束,参数可以为如下关键字:

error code [reason]:返回错误码给客户端,丢弃请求。

pass:转换到pass模式。控制权最后会转移到vcl_pass。

pipe:转换到pipe模式。控制权最后会转移到vcl_pipe。

lookup:在缓存中寻找请求对象。控制权最后会转移到vcl_hit或者vcl_miss,决定于对象是否在缓存中.

  • vcl_pass

当进入pass模式的时候会被调用。在这个模式中,请求会被传送到后端,然后后端的响应会被传送回客户端,但是响应不会进入缓存中。接下来通过相同客户端连接发起的请求会以普通的方式来处理。vcl_pass以return结束,参数可以为如下关键字:

error code [reason]:返回错误码给客户端,丢弃请求。

pass:以pass模式执行。

  • vcl_hash

你如果把想把数据加入到hash中,那么调用hash_data()。

vcl_hash以return结束,参数可以为如下关键字:

hash:执行hash逻辑。

  • vcl_hit

如果请求的对象在缓存中被找到了,那么在缓存查找结束后被调用。vcl_hit以return结束,参数可以为如下关键字: deliver:deliver缓存对象到客户端。控制权最后会转移到vcl_deliver。

error code [reason]:返回错误码给客户端,丢弃请求。

pass:切换到pass模式。控制权最后会转移到vcl_pass。

vcl_miss

如果请求的对象在缓存中没有被找到,那么在缓存查找结束后被调用。目的是为了决定是否去后端获取这个请求对象,并且要选择哪个后端。vcl_miss以return结束,参数可以为如下关键字:

error code [reason]:返回错误码给客户端,丢弃请求。

pass:切换到pass模式。控制权最后会转移到vcl_pass。

fetch:去后端获取请求对象。控制权最后会转移到vcl_fetch。

  • vcl_fetch

当一个对象被成功从后端获取的时候此方法会被调用。vcl_fetch以return结束,参数可以为如下关键字:

deliver:可能把对象放入缓存中,然后再deliver到客户端。控制权最后会转移到vcl_deliver。

error code [reason]:返回错误码给客户端,丢弃请求。

esi:以ESI形式来处理刚刚被获取到的对象。

pass:切换到pass模式。控制权最后会转移到vcl_pass。

3.varnish与squid的对比

squid是一个高性能的代理缓存服务器,它和varnish之间有诸多的异同点,如下:
相同点:
都是一个反向代理服务器
都是开源软件
不同点,也是Varnish的优点:
Varnish的稳定性很高,两者在完成相同负荷的工作时,Squid服务器发生故障的几率要高于Varnish,因为使用Squid要经常重启。
Varnish访问速度更快,Varnish采用了“Visual Page Cache”技术,所有缓存数据都直接从内存读取,而squid是从硬盘读取,因而Varnish在访问速度方面会更快。
Varnish可以支持更多的并发连接,因为Varnish的TCP连接释放要比Squid快。因而在高并发连接情况下可以支持更多TCP连接。
Varnish可以通过管理端口,使用正则表达式批量的清除部分缓存,而Squid是做不到的。
squid属于是单进程使用单核CPU,但Varnish是通过fork形式打开多进程来做处理,所以是合理的使用所有核来处理相应的请求。
当然,与传统的Squid相比,Varnish也是有缺点的,如下:
varnish进程一旦挂起、崩溃或者重启,缓存数据都会从内存中完全释放,此时所有请求都会发送到后端服务器,在高并发情况下,会给后端服务器造成很大压力。
在varnish使用中如果单个url的请求通过HA/F5(负载均衡)每次请求不同的varnish服务器中,被请求varnish服务器都会被穿透到后端,而且同样的请求会在多台服务器上缓存,也会造成varnish的缓存的资源浪费,也会造成性能下降。

解决方案:
综上所述在访问量很大的情况下推荐使用varnish的内存缓存方式启动,而且后面需要跟多台 squid服务器。主要为了防止前面的varnish服务、服务器被重启的情况下,前期肯定会有很多的穿透这样squid可以担当第二层cache,而且 也弥补了varnish缓存在内存中重启都会释放的问题。
这样的问题可以在负载均衡上做url哈希,让单个url请求固定请求到一台varnish服务器上,可以解决该问题。

4.varnish的工作流程

Linux下CDN及Varnish的介绍(企业级CDN)

大致的过程如下描述:
当客户端进行请求,vcl_crecv这个函数接受了进程,根据VCL规则请求应该是pass或Pipe,或者进入Lookup状态;
Lookup状态,判断是否是可缓存数据在cash中(执行lookup指令),调用hash函数,默认url做key。然后问cash,如果它在缓存中找到请求的内容自动调用cvl_hti函数,再将控制权交给函数vcl_deliver,它将客户所需要的数据,直接返回给客户;反之,如果在cash中未命中,自动调用vcl_miss函数,再将控制权交给vcl_fetch函数,从后端服务器上更新缓存,再去调用vcl_deliver函数,从缓存中找到请求,返回给客户端;
如果是Pass状态进入后端请求,调用vcl_fetch函数,到后端服务器直接抓取数据;
如果是pipe(管道方式,后续请求与varnish无关)直接让client和server直接通信,如果一旦通信结束,立即释放;(pass与其最大的区别在于在后续请求中依旧与varnish环境中)

二.CDN简介

1.CDN是什么?

  • CDN的全称是Content Delivery Network,即内容分发网络。CDN是构建在网络之上的内容分发网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术。

2.基本思路:

  • 基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,解决 Internet网络拥挤的状况,提高用户访问网站的响应速度。

3.服务模式:

  • 1.内容分发网络(CDN)是一种新型网络构建方式,它是为能在传统的IP网发布宽带丰富媒体而特别优化的网络覆盖层;而从广义的角度,CDN代表了一种基于质量与秩序的网络服务模式。
  • 2.简单地说,内容分发网络(CDN)是一个经策略性部署的整体系统,包括分布式存储、负载均衡、网络请求的重定向和内容管理4个要件,而内容管理和全局的网络流量管理(Traffic Management)是CDN的核心所在。通过用户就近性和服务器负载的判断,CDN确保内容以一种极为高效的方式为用户的请求提供服务。
  • 3.总的来说,内容服务基于缓存服务器,也称作代理缓存(Surrogate),它位于网络的边缘,距用户仅有"一跳"(Single Hop)之遥。同时,代理缓存是内容提供商源服务器(通常位于CDN服务提供商的数据中心)的一个透明镜像。这样的架构使得CDN服务提供商能够代表他们客户,即内容供应商,向最终用户提供尽可能好的体验,而这些用户是不能容忍请求响应时间有任何延迟的。