运维监控体系概述

运维监控的重要性:==========================

运维工作中比较重要的一个部分,可以说,一切线上系统都需要 监控。

考虑几个话题:

1、什么是监控? ============================

一种实时获取某种对象的 状态、信息 的手段。
人类社会中,监控无处不在。 手段各式各样。

在我们的运维工作中,监控的主要对象是 和企业 业务相关的各种 服务器硬件状态,服务运行状态,员工操作记录等。

人员 硬件 软件

2、为什么要监控? ===========================

没有绝对稳定的系统,我们假定问题一定会出现, 监控是 为了能够及时的发现,并及时的处理问题。

监控、阀值、响应动作、报警方式 、报表/图表

3、 具体监控什么? ===========================

可以说,任何线上的内容,其范围包括: 服务,网络,硬件,系统,人员,甚至 命令执行记录

人员方面:身份验证,机房进出记录,操作记录,甚至在班期间与外界通信记录等。

硬件方面:机房巡检(物理设备): 网线,温度,湿度,磁盘灯,标签, 远程控制卡(独立于主机,能实现开关机,运行记录)

网络方面:路由、交换机的 配置,网络拥塞程度,硬件防火墙配置

系统方面:进程数量,端口数量,用户数量,登录日志,CPU状态,内存状态,磁盘IO,网络IO,磁盘空间用量,敏感/机密文件,新增文件。等

安全方面:出入记录,登录时间,登录来源,操作者,操作细节等

4、 如何来实施监控? ===========================

众多开源小工具(只针对某种对象)
一些相对综合的项目(同时集成各个对象的监控)
某些开源组件 自带的 状态显示功能 (例如 Nginx 的 status 模块)
成熟,产品化的开源组件 (nagios、cacti、zabbix )
商业软件 (博睿/听云, 监控宝等 )

某些具有物理特性监控的卡片设备,如 IPMI

运维监控体系概述
SLA : 服务等级协议,停机时间 99.99%

SLA:Service-Level Agreement的缩写,意思是服务等级协议。

在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。
通常这个开销是驱动提供服务质量的主要因素。

典型的SLA 包括以下项目:

分配给客户的最小带宽;客户带宽极限;能同时服务的客户数目;
在可能影响用户行为的网络变化之前的通知安排;
拨入访问可用性;
运用统计学;
服务供应商支持的最小网络利用性能,如99.9%有效工作时间或每天最多为1分钟的停机时间;
各类客户的流量优先权;
客户技术支持和服务;

惩罚规定,为服务供应商不能满足 SLA 需求所指定。