运维监控体系概述
运维监控的重要性:==========================
运维工作中比较重要的一个部分,可以说,一切线上系统都需要 监控。
考虑几个话题:
1、什么是监控? ============================
一种实时获取某种对象的 状态、信息 的手段。
人类社会中,监控无处不在。 手段各式各样。
在我们的运维工作中,监控的主要对象是 和企业 业务相关的各种 服务器硬件状态,服务运行状态,员工操作记录等。
人员 硬件 软件
2、为什么要监控? ===========================
没有绝对稳定的系统,我们假定问题一定会出现, 监控是 为了能够及时的发现,并及时的处理问题。
监控、阀值、响应动作、报警方式 、报表/图表
3、 具体监控什么? ===========================
可以说,任何线上的内容,其范围包括: 服务,网络,硬件,系统,人员,甚至 命令执行记录
人员方面:身份验证,机房进出记录,操作记录,甚至在班期间与外界通信记录等。
硬件方面:机房巡检(物理设备): 网线,温度,湿度,磁盘灯,标签, 远程控制卡(独立于主机,能实现开关机,运行记录)
网络方面:路由、交换机的 配置,网络拥塞程度,硬件防火墙配置
系统方面:进程数量,端口数量,用户数量,登录日志,CPU状态,内存状态,磁盘IO,网络IO,磁盘空间用量,敏感/机密文件,新增文件。等
安全方面:出入记录,登录时间,登录来源,操作者,操作细节等
4、 如何来实施监控? ===========================
众多开源小工具(只针对某种对象)
一些相对综合的项目(同时集成各个对象的监控)
某些开源组件 自带的 状态显示功能 (例如 Nginx 的 status 模块)
成熟,产品化的开源组件 (nagios、cacti、zabbix )
商业软件 (博睿/听云, 监控宝等 )
某些具有物理特性监控的卡片设备,如 IPMI
SLA : 服务等级协议,停机时间 99.99%
SLA:Service-Level Agreement的缩写,意思是服务等级协议。
在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。
通常这个开销是驱动提供服务质量的主要因素。
典型的SLA 包括以下项目:
分配给客户的最小带宽;客户带宽极限;能同时服务的客户数目;
在可能影响用户行为的网络变化之前的通知安排;
拨入访问可用性;
运用统计学;
服务供应商支持的最小网络利用性能,如99.9%有效工作时间或每天最多为1分钟的停机时间;
各类客户的流量优先权;
客户技术支持和服务;
惩罚规定,为服务供应商不能满足 SLA 需求所指定。