双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

在刚刚过去的天猫双11中,阿里巴巴继续创造着新的记录:双11当天交易额达到1682亿的历史新高。10日晚“2017天猫双11狂欢夜”半场观看人数超过去年整晚。

这些数字的背后,离不开阿里技术小二的支持,这其中就包括了底层基础环节的保障人员——阿里巴巴信息平台的工程师们。但与以往工作不同的是,今年信息平台的工程师“喝着茶、吃着东西,偶尔看下监控”就顺利度过零点。原来,今年有众多智能技术运用到保障工作中,在确保双11的全面稳定同时,工作人员的双手也得到解放。

混合云&自动化部署 降低建设与运维成本

11月10日晚“2017天猫双11狂欢夜”在上海梅赛德斯奔驰文化中心上演,开场仅2小时,就有近4000万观众一起加入狂欢,并且引发2.7亿次点赞,翻新了“猫晚”的直播历史。对于提供现场网络保障的工程师们来说,今年的保障工作也进入了一个全新阶段,通过混合云与自动化部署的运用,工作完成得又漂亮又轻松。

传统举办一场大型网络互动晚会,现场需要放置至少1个机柜的服务器作提供系统支撑。但在今年双11晚会的后台,工程师们仅使用了往年30%的物理机作为核心系统的灾备,主要负载则转移到了云上。通过综合运用弹性计算、混合云以及异地多活等一系列技术,敏捷、顺滑、低成本、超高可用的交付了会场的一系列服务。

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

在设备调试工作中,工程师还运用了具备快速交付能力的自动化部署2.0系统。相比908阿里年会上1.0系统,这次实现了智能纠错功能,网络设备在上线过程中出现断电或者线路问题而中止时,程序会自动清理异常数据,确保设备顺利上线。

阿里模式保障现场视频连线“丝般顺滑”

双11当天,位于上海的媒体中心与杭州的西溪园区总部作战指挥室、滨江园区作战指挥室及天猫小店、云南元阳村淘点、广东惠阳菜鸟仓等地还进行了现场视频连线,展示阿里巴巴风采。

通过技术手段,现场视频连线已经摆脱对传统导播车和卫星车的依赖,只需要有线网络和4G网络,就可以进行传输。不仅大大节省人力与资金成本,系统的延迟时间也只有0.5秒。

此外,信息平台的工程师们还通过后台的优化算法,保证云南村淘点在只有公网的情况下,也能稳定连线,图像不会出现马赛克和拖影,如“丝般顺滑”。

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

(上海媒体中心与杭州作战室进行视频连线)

无线网络承载现场七成流量不卡顿

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

一般大型线下活动的现场,网络环境都非常糟糕,常常连不上网。在今年双11的晚会现场与媒体中心,为了让在场每一个人都能顺畅上网,阿里信息平台的工程师们专门构建了一张巨大的无线网络。据了解,11月10日、11日两天,现场无线网络接入设备达到6000个,无线合计吞吐量达到2.2t,占总数据流量的70%。同时为了保障现场无线网络的稳定性,工程师们应用自动化监控预警,AP下线可短信通知预警,及时发现问题。

人脸识别技术提供双重安全屏障

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

在现场安保方面,工程师们还将自主研发的人脸识别系统搬到了晚会与媒体中心。观众与工作人员除了凭借门票、工作证外,还需要进行“刷脸”才能进入会场。人脸识别系统高精准比对与百毫秒级的识别速度,能快速识别入场人员身份,让现场流动变得更有保证。值得特别说明的是,双11最高戒备的“光明顶”作战指挥室也引入这套人脸识别技术保障安全。

智能监控大盘 1人1屏即可全盘监控

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

(智能监控大盘实时监控媒体大屏运行状态)

为了保障双11期间网络设备与核心应用、系统的稳定,信息平台的工程师们研发了一套“智能监控大盘”,在一个监控界面上,实现同时对系统层和应用层运行状态的可视化监控。同时,大盘上还能显示出各个应用之间的调用关系,自动捕捉Root Cause,将报警信息进行归类、分层、关联,快速有效地定位问题。

智能监控大盘已实现在不同网络环境下,对网络设备与应用进行报警监控与实时响应。为阿里巴巴集团提供保障外,其已开始服务于阿里生态企业。目前,智能监控大盘已实现为盒马鲜生提供全面的网络监控与保障,成为更多阿里生态企业及外部企业客户的支持后盾。

身份控制基础服务确保稳定性

BUC&ACL&SSO作为企业身份控制基础服务平台,为阿里巴巴集团提供员工域账号管理、身份访问控制及应用权限管控等服务,目前已接入管理阿里巴巴集团内部几乎所有系统及员工,承载权限量达到70W+。

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

为确保此次双11期间各应用稳定性,工程师们做了大量系统保障工作。包括通过单元化部署,实现异地多活,保证服务可用性。对依赖的关键服务做自动检测切换,保证异常的快速恢复。并且为关键数据增加灾备,以及去中心化降级,压缩权限数据保存客户端本地等。

通过上述系统能力的完美实现,打造出业界首屈一指的高性能账号权限服务体系,即使某个机房出现故障,其他机房仍可继续支持登录鉴权务。另外,接入ACL降级客户端的应用,当 ACL无法提供服务时,应用业务仍可继续精准验权。

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

双11期间账号服务共提供了近20亿次查询,峰值QPS超6W;ACL验权总调用量达到近7亿,峰值QPS近4W;在双11开始和结束冲刺阶段,系统数据量承载着巨大明显的飙升,稳定牢靠的保障了大屏、运营、监控等诸多关键应用的验权运行。

员工智能办公助理 提供双11个性服务

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

“内外小蜜”智能服务机器人是阿里员工的私人智能办公助理。它既可以快速解答员工关心的HR、IT、法务、行政等问题,还可以提供会议预定、日程管理等个性化办公管理。

在双11期间,内外小蜜承担起“智能管家”的角色,从吃饭夜宵,到睡觉洗漱,所有行政mm的贴心服务,问内外小蜜统统知道。内外小蜜还联合天猫团队,准备双11各类目爆款清单,让奋斗在前线上,分身乏术的员工也能感受双11“剁手”的快乐。对于大家最关心的2017年双11进展,内外小蜜实现了实时数据同步通报。

已经“剁手”的同学,通过内外小蜜也能马上知道自己有多少快递到达了园区,以及所到快递服务点的具体位置。甚至连服务点的忙闲状态,内外小蜜也能实时显示。

智能优化取件 园区小邮局应对“爆仓”

双11奇迹背后 阿里巴巴信息平台如何智能“维稳”

双11之后的快递签收工作,对于拥有上万员工的阿里园区而言也是一项艰巨任务。去年阿里巴巴西溪园区快递量达到11万件,足足130吨,连起来差不多可绕半个杭州城,今年预计快递量将突破20万件。为了让员工更快收到包裹,包裹热力图、取件顺序规划等智能技术也运用到园区“小邮局”服务上了。

小邮局管理员可以通过包裹热力图实时了解整个园区入库包裹和库存包裹数量,园区每层楼有多少包裹数量待领取,哪个部门“剁手”最多,哪栋楼的小邮局最忙,一目了然。

同时为了加快园区小邮局自主取件的效率,工程师在对小邮局的货架号与取件路径进行智能规划,引导员工更快取到包裹。

从全场5折到双11快乐。今年的双11可以说是变化最大的一年。正如阿里巴巴CEO张勇说的那样,“在商业力量、科技、大数据驱动下,双11已成为一场全球范围内的社会大协同。”在这场大协同中,阿里巴巴信息平台作为技术支撑部门也发挥着巨大作用。通过过硬的技术与前瞻的服务意识,为双11提供全面保障,也让员工在体验智能办公同时,不断突破成长。