对AIOps架构框架比较

在了解了AIOps智能化运维基础后,我们先来看下网上能够找到的一些对AIOps整体架构框架的一些图进行对比分析和说明。

对AIOps架构框架比较

图片来自网络

该图为华为在18年的GOPS运维大会上讲到的一张AIOps整体架构图。

最左边列举了我们的数据来源,比如:服务器大家常用的zabbix、HCW(华为自研的采集)、业务侧数据(包括端侧和云侧的数据)还有第三方(如CDN厂商提供的边缘节点数据),这些数据源有实时采集推送,也有非实时的。右侧是运维大数据,一共分为 5层:即数据分析处理层,数据资产层,数据服务能力层,大数据应用服务层,包括了业务监控、日志检索、异常检测、故障诊断等都是这层的能力。

从这个图可以看到,整体AIOps架构和我们经常说的大数据平台架构相当类似,我们完全可以理解为是基于自动化运维和智能化运维场景来构建的一个大数据平台。

对于类似资源的CPU,内存,JVM等性能数据采集,日志数据采集当然是海量大数据,构建大数据平台并进行分布式存储是必要的,这是进行运维分析和决策的基础。但是这种的难点在于我们的学习模型,分析和算法模型。

这个内容实际上在架构图里面的运维算法库这个地方,但是没有展开。

对于大数据分析应用这块,整个图比较散,而且智能化分析决策类功能和我们常说的系统运维功能,监控功能是合并在一起的。

那么哪些可以算做是智能化分析决策类应用,个人理解应该包括:

  • 性能监控预警和自适应调整
  • 故障诊断和自动恢复
  • 性能趋势分析和自扩展
  • 问题诊断和关键因子分析
  • 异常告警等趋势和辅助决策分析

可能还有其它方面,但是以上实际上是智能化运维最关键的内容。

下图是携程Ops大会分享的一个架构图:

对AIOps架构框架比较

图片来自网络

在这个图里面我们可以看到给出了运维AI平台,该平台基于机器学习和深度学习构建。同时在能力层增加了面向AIOps的算法集,包括了类似聚类,回归,降维,分类等关键算法。

同时在解决方案层可以看到关键的还是两个方面的内容。其一是故障发现,定位和解决。其二是容量优化和弹性扩容。即对于故障如前面所说,不是简单的发现故障,而是需要你快速的进行故障定位,并根据定位的故障。

对AIOps架构框架比较

图片来自网络

在传统的运维里面问题发现可能是系统,但是最终的问题分析定义,问题决策和问题解决则是需要人工进行处理。而到了AIOps阶段,我们希望的是问题分析和决策全部由电脑自建来完成,我们可以预先配置一些规则库,知识库,但是这个知识库本身也要做到能够基于真实的运维场景进行自适应学习和调整,而不是一成不变。

问题决策和处理分离,智能运维可以是全部由软件自己来完成,也可以是软件分析决策后给出几种解决问题的分支,然后由人工判断后再来进行解决。

举个简单的例子,比如当发现了明显的性能问题后,软件可以给出两个决策路径。

  • 其一是进行资源自动化扩展
  • 其二是对某几个关键API接口进行限流

那么运维人员只需要选择具体采用哪个具体的分支即可。

在2018年发布的《企业级 AIOps 实施建议》白皮书给出了一个AIOps平台能力体系。

对AIOps架构框架比较

图片来自网络

在该图里面也可以看到,智能化运维在传统的自动化运维平台和功能的基础上,增加了底层的大数据存储,处理和分析技术平台能力。同时增加了AI算法库,AI建模分析能力。

对AIOps架构框架比较