Docker 底层实现

Docker底层实现(一些底层原理)

Docker底层的核心技术包括Linux上的命名空间(Namespace)、控制组(Control groups)、Union文件系统(Union file systems)和容器格式(Container format)。

传统的虚拟机通过在宿主主机中运行hypervisor来模拟一整套完整的硬件环境系统提供给虚拟机的操作系统。虚拟机系统看到的环境是可限制的,也是彼此隔离的。这种直接的做法实现了对资源的完整封装,但很多时候往往意味着系统资源的浪费。例如,Linux上运行Linux虚拟机,虚拟机中运行的应用其实可以利用宿主机系统中的运行环境。

可以通过Linux的命名空间实现大家虽然都共用一个内核和某些运行时环境(例如一些系统命名和系统库),但是彼此却看不到,都以为系统中只有自己的存在。这种机制就是容器(Container),利用Namespace来做权限的隔离控制,利用cgroups来做资源分配。

 

基本架构

Docker采用了C/S架构,包括客户端和服务端。Docker守护进程(Daemon)作为服务端接收来自客户端的请求,并处理这些请求(创建、运行、分发容器)。

客户端和服务端既可以运行在一个机器上,也可以通过socket或者RESTful API来进行通信。

Docker守护进程一般在宿主主机后台运行,等待接收客户端的消息。Docker客户端则为用户提供一系列可执行命令,用户用这些命令实现跟Docker守护进程交互。

 

命名空间

每个容器都有自己的单独命名空间,运行在其中的应用都像是在独立的操作系统中运行一样。命名空间保证了容器之间彼此互不影响。

常见的命名空间:

pid 隔离不同用户进程;net 网络隔离;ipc 进程间交互隔离;mnt 文件结构的隔离;

uts 独立host name\domain name,使其在网络上可以被视作一个独立的节点而非主机上的一个进程。

User 每个容器可以有不同的用户组id。

 

控制组(control groups)

cgroups是Linux内核的一个特性,主要用来对共享资源进行隔离、限制、审计、只有能控制分配到容器的资源,才能避免当多个容器同时运行时对系统资源的竞争。控制组可以提供对容器的内存、CPU、磁盘IO等资源的限制和审计管理(之后单独整理一篇cgroups)。

 

联合文件系统

UnionFS是一种分层、轻量级并且高性能的文件系统,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下。

联合文件系统是Docker镜像的基础,镜像可以通过分层来进行继承,基于基础镜像(没有父镜像),可以制作各种具体的应用镜像。这样的话,不同Docker容器就可以共享一些基础的文件系统,同时再加上自己独有的改动层,大大提高了存储的效率。

Docker中使用的AUFS(AnotherUnionFS)就是一种联合文件系统。AUFS支持为每一个成员目录设定readonly/readwrite/whiteout-able权限,同时AUFS里有一个类似分层的概念,对只读权权限的分支可以逻辑上进行增量地修改(不影响只读部分)。

Docker目前支持的联合文件系统包括 OverlayFS/AUFS/Btrfs/VFS/ZFS/Device Mapper。

 

Linux版本和Docker推荐存储驱动

Docker 底层实现

 

所以说,如果不考虑太多,默认overlay2 就可以,并且overlay2也是目前Docker默认的存储驱动(以前是aufs)。

 

 

Docker网络实现

Docker的网络实现是用了Linux上的网络命名空间和虚拟网络设备(特别是veth pair)。

要实现网络通信,机器需要至少一个网络接口(物理接口或者虚拟接口)来收发数据包;此外,如果不同子网之间要进行通信,需要路由机制。Docker中的网络接口默认是虚拟的接口。虚拟接口得优势之一是转发效率高。Linux通过在内核中进行数据复制来实现虚拟接口之间的数据转发,发送接口得发送缓存中的数据包被直接复制到接收缓存中。对于本地系统和容器内系统看来就像是一个正常的以太网卡,只是它不需要真正同外部网络设备通信,速度要快很多。Docker容器网络就是利用这项技术,在本地主机和容器内分别创建一个虚拟接口,并让他们彼此联通(这样的一对接口叫 veth pair)。

Docker创建一个容器的时候,网络方面会执行如下操作:

  1. 创建一对虚拟接口,分别放在本地主机和新容器中;
  2. 本地主机一端桥接到默认的docker0或者指定网桥上,并且有一个唯一的名字,如veth0101。
  3. 容器一端放到新容器中,并修改名字作为eth0,这个接口只在容器的命名空间中可见;
  4. 从网桥可用地址段中获取一个空闲地址分配给容器的eth0,并配置默认路由到桥接网卡veth0101。

之后,容器就可以使用etch0虚拟网卡来连接其他容器和其他网络。

可以在docker run 的时候通过 --net 参数来指定容器的网络配置,有4个可选值:

--net=bridge 这个是默认值,连接到默认的网桥。

--net=host 不进行网络隔离,即不要容器化容器内的网络。此时容器使用本地主机的网络,他拥有完全的本地主机接口访问权限。容器进程可以跟主机其他root进程一样可以打开地范围端口等。甚至可以进一步使用 --privileged=true,容器会被允许直接配置主机的网络堆栈。

--net=container:NAME or ID 让Docker将新建容器的进程放到一个已存在容器的网络栈中。

--net=none 让Docker将新容器放到隔离的网络栈中,但是不进行网络配置。