【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

5月13-15日, 2016中国云计算技术大会盛大开幕,在14日的Container技术峰会上,由来自长安汽车、麒麟云、好雨云、民生银行、乐视、轻元科技分享了Container在金融、证券、制造、教育等生产级实践经验。

2016年5月13日-15日,由全球最大中文IT社区****主办的“2016中国云计算技术大会”(Cloud Computing Technology Conference 2016,简称CCTC 2016)在北京新云南皇冠假日酒店隆重举行,这也是本年度中国云计算技术领域规模最大、海内外云计算技术领袖齐聚、专业价值最高的一场云计算技术*盛宴。本次大会以“技术与应用、趋势与实践”为主题,聚焦最纯粹的技术干货分享,和最接地气的深度行业案例实践,汇聚国内外顶尖技术专家,共论最新的云计算技术实践与发展趋势。

在14日上午的Container技术峰会上,广发证券信息技术部资深架构师杨涛,阿里商家事业部技术专家王晨纯,才云科技CTO邓德源等为我们带来Container技术在金融、电商、IaaS以及集群管理等领域的应用。

上午9:00,Container技术峰会在道里云公司创始人,首席执行官毛文波老师的主持下正式开始。他表示在本次Container技术峰会上将会有来自不同企业专家带来如何使用Docker的成功经验,相信不论是讲师还是听众都能从中受益匪浅。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

道里云公司创始人,首席执行官 毛文波

才云科技邓德源:谷歌容器集群管理系统实践

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

才云科技CTO 邓德源

才云科技CTO邓德源在本次Container技术峰会中带来《谷歌容器集群管理系统实践》的主题分享,详细分享了对谷歌容器设计的众多实践经验。他提出,当有很多Container又该如何管理和调度,针对这些问题,他提出了一些自己的解决方案。接着对Borg做了介绍,Borg自身是怎么监控的,及对它工作的流程进行了深度解析。

谷歌作为容器集群的先行者,在设计之初,强调提供完整的分布式系统所需的核心功能,包括调度、编排、服务发现,配置管理、灰度发布、健康检查、弹性扩容、环境一致等功能。

在谷歌集群管理系统中,每个任务都有优先级,从0到120非常细化,重要多少都有量化指标。除了任务的优先权,在获取资源的时候会帮你随机分配端口,然后写在内部的ETC存储系统,并帮你做服务发现,此外,系统还会对你未使用的资源进行逐步回收,防止资源浪费。虽然有着高稳定性、高自动性的优势,但是也有非常多的问题。一是配置文件太复杂,写一个简单的任务都要写上百行的配置文件,还有很多工具帮助你去做这件事情,而要学这个工具又要非常多的成本;二是Borgmaster渐渐变成一个monster,这个东西包括master变成了锯齿型;第三就是Borgmaster非常难重写,理论和实际还是有差距的。针对这些问题,可以把master拆卸出来,调度器就把所有的状态放在这个差距里面。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

针对Borg容器之外的其他任务,邓德源提出了Borg自身的管理、机器层面的管理、网络层面的管理、安全的控制和镜像的管理等一系列问题,进行展开的分析。接着对Borg做了介绍,Borg自身是怎么监控的,及对它工作的流程进行了深度解析。Borg只是一个小块,它有SDN还有分布式存储还有负载均衡,最下面它有非常多的工具,这些工具都是用SRE用50%时间做出来的,比如生产管理维护系统,有了这个工具之后,会有一个中间的层,比如说集群数据库,类似于CMBD,但它做的东西多很多,还有一些耗竭系统。

永信至诚张凯:CloudStack+Docker构建云端信息安全实验场

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

永信至诚股份有限公司CTO 张凯

北京永信至诚科技股份有限公司副总裁CTO张凯紧接着邓德源之后,开始了自己的演讲,他带来了题为《CloudStack+Docker构建云端信息安全实验场》的主题分享,在技术实践部分,他重点谈了他们自己以“场景”为中心的信息安全实验平台,对于什么是“场景”、如何进行场景分类等详细分析,同时,他还对e春秋信息安全竞赛系统和e春秋信息安全实验室的Docker实践方面,分享了自己的经验。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

永信至诚的核心要素分为四大块,一部分是内容,另一部分是平台。以技术实践的角度看,以“场景“为中心的信息安全实验平台是逻辑结构,把硬件资源集中到一起,把资源利用起来,通过虚拟化的技术,把它提升上去,变成一个更好的能够利用资源,更好的来快速搭建场景的东西,永信至诚就是把这个场景变成核心。张凯介绍他们主要使用两种不同的方法,一种是i春秋,它有几个不同的集群,要对这几个集群进行管理,使用了CloudStack和Docker;还有一个就是e春秋,为企业和用户提供私有的培训环境,由于环境的动态调整机会太多,需要定制很多东西。说到场景比较容易理解的就是现在提供的IaaS,i春秋的场景不只是一个单机的环境,还需要网络类的化学,这些虚拟机是有网络连接,直接是有安全策略,有相关关联的,为了仿真这个东西还要做虚拟化的设置。张凯介绍他们还对场景进行了分类,因为使用各种各样的虚拟化技术以后,或者Docker技术选择,要根据不同的对系来做选择。环境分类比较多,有单机类环境,一个机器里面只有一个攻击机和目标机,双网的环境。还有更复杂的场景,需要网络分多层级的功能,后面有多个不同的安全区域,甚至还会再加设备。

最后,还列举Docker的几个使用场景:

  1. 基于linux系统的虚拟机
  2. 可以提供快速的资源下发和回收
  3. 适用于针对应用层安全漏洞的测试和利用的实验场景
  4. 实验中不会具有针对内核的安全渗透和测试,不会对内核服务进行漏洞利用等
  5. 对资源的占用要求要比较低

广发证券杨涛:基于大规模Docker集群OpneTrading实践之路

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

广发证券信息技术部资深架构师 杨涛

广发证券信息技术部资深架构师,交易云技术研发团队负责人杨涛带来《容器化技术在股票交易系统的应用》的主题分享。由于硬件资源低、系统升级时间长、快速部署难、测试环境搭建麻烦等都是为什么要做容器化的原因。他表示,Docker 的出现,让他们有一个弯道超车的机会。紧接着对Docker 进行了详细的介绍,并指出云要落地一定要解决编排和调度的问题。最后,又对Rancher和Docker的研发流程分别做了介绍。

对传统的垂直行业来讲,Docker也是2013年以后才出来的东西,对传统垂直行业说实话肯定是有成本的。广发证券与其他传统垂直行业不同,还要考虑怎样利用有限的资源支撑业务创新。传统的交易系统升级非常困难,有一个升级要有表,数据量非常大,所以升级基本上是只能在周末升级,时间会非常长,还有交易系统要升级要打补丁,在系统里面升级一个补丁,把补丁放上去,补丁打的越多导致生产环境的系统没人敢去动,动了反应不了,还有一个就是测试环境搭建非常麻烦,快速部署非常困难,比较大的升级很难回退,这些都是痛点。证券交易出现问题,根本就是技术系统实时风控速度达不到业务的要求。起初使用Docker是将它做一个虚拟机,但是现在的理解,Docker其实是一个进程的替代者,是一个存储的基本者,广义讲,云其实就是一个单机多进程的跨网络多进程的延伸,要实现云肯定要实现对资源对进程进行远程编排跟调度,杨涛认为这构成云的基础。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

杨涛表示,Docker的出现,让他们有一个弯道超车的机会。Docker能很好的解决了加快上线速度的问题,并且在故障时,能做到自动隔离和能够做到自动恢复,以及能极大地方便水平扩容和低成本的回滚,并指出云要落地一定要解决编排和调度的问题。

UCloud邱模烔:IaaS平台上的容器服务实践

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

UCloud平台开发中心总监邱模炯

UCloud平台开发中心总监邱模炯 分享的主题是《IaaS平台大规模计算集群的容器实践》,在介绍完如何选择虚拟机和容器之后,他分享了UCloud虚拟机上运行容器的集群模式以及CoreOS Cluster集群管理能力,其中后者主要是通过etcd存储计算节点信息,通过fleet服务管理计算节点和以Docker方式执行任务,之后他也谈到了他目前在容器实践方面趟过的坑,比如TaskExecutor执行完任务可能会并发删除Docker实例和实时流计算,TaskManager带宽和负载压力很大时他们的解决策略。

计算类的业务,如果跑在巨大的资源池上面,首先一个问题就是用什么调度,基于什么力度调度,虚拟机还是用容器。虚拟机好处就是隔离性特别好,但比较重,调度力度比较大,以资源为中心,以应用为中心的,Docker非常轻量,从UCloud的角度讲,很多的业务想跑在空闲的资源上面,希望这些业务不要关心资源,不要关心部署的位置,只关注业务,这样用Docker就比较合适。但是还会遇到问题,如果是完全空闲的服务器,跑Docker很难。邱模炯表示他们使用的是Docker与虚拟机结合。UCloud服务器的资源,通过虚拟机的方式剥离开,这个平台实际是虚拟机上运行容器集群。而虚拟机加Docker消耗很重,为了减少开消,UCloud使用CoreO。CoreOS Cluster集群管理主要是通过etcd存储计算节点信息,通过fleet服务管理计算节点和以Docker方式执行任务。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

邱模炯提到在API实现过程中,首先是提交任务,其中任务分为同步任务和异步任务,同步任务需要同步等待任务返回,适用于实时计算;而异步任务提交后根据任务id获取结果,则适用于离线计算。其次就是获取任务结果和获得任务的状态。在之后他也谈到了他目前在容器实践方面趟过的坑,比如TaskExecutor执行完任务可能会并发删除Docker实例和实时流计算,TaskManager带宽和负载压力很大时他们的解决策略。

阿里王晨纯:聚石塔如何实现高可用的海量容器运维平台

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

阿里商家事业部技术专家 王晨纯

上午场最后一名讲师来自阿里商家事业部技术专家王晨纯(沐剑)带来《聚石塔如何实现高可用的海量容器运维平台》的主题演讲,主要分享在聚石塔上做的容器运维平台。首先对TAE产品的历史背景进行了介绍,并提到要实现高可用的海量容器运维平台必须要关注六大点,分别是可用性、扩展能力、可靠性、运维能力和安全。然后又对聚石塔的异地多活、容器网络的需求及带来的问题、弹性计算的特性分别进行了详细的解析。

聚石塔(TAE)是阿里做了很多年的电商云平台,现在同时服务于阿里的内部和外部客户。TAE从13年发现Docker技术,14年就推出了基于Docker的版本,因为客户的需求更多的关心是稳定,提供一套高质量高可用的架构。外部客户需要不限制语言,开发一些HTTPS代码,以及安全可靠的数据。内部客户的需求与外部类似,多出一个回滚的需求。王晨纯认为Docker帮你打包的事情解决好,但怎么维护,实现Docker架构,不是Docker应该解决的问题。

【Container技术峰会】阿里、UCloud、广发等容器实战分享(上)

异地多活特性,现在是支持阿里云主要5个Region,用户可以任意选择Region部署它的应用。当整套系统发生问题的时候,管控系统一定能够提前客户感知到这个事情,就可以第一时间处理,不用等在路上才发现原来有故障。多Region同步,有一个缓存的架构,既可以保证数据的一致性,又可以保证说尽可能把这个流量封闭在Region内,如果把流量封闭在Region内是能得到比较好的交通效果。对于任意的容器,你可以在界面上点一下就可以弹出浏览器的窗口,就不需要输任何的密码,来做容器内文件察看或者部署,这样的话对于用户的运维成本就很低。