vSphere HA

在项目运营维护中遇到以下问题

计划停机时间:物理服务器进行硬件维护、硬件更新(vMotion虚拟化主机迁移)
非计划停机时间:物理服务器故障,快速恢复、连续可用性,减少非计划停机时间(HA和FT)


集群(HA)是将多个主机(服务器)通过网络连接的方式组成一个整体,各个主机间是相互协同运行(集群就是进行统一管理
当主机出现问题,网络中断,集群虚拟机可以从当前异常主机上切换到其他主机环境上运行
目的:有效防止异常情况下,业务长时间中断

集群原理
集群的原理:基于共享存储,实现HA高可用性,通过集群通信口,更新各个主机状态

共享存储功能:实现动态资源分配、高可用性,冗余RAID、备份、在线迁移(FC通道存储、ISCSI存储)
自从有了网络存储以后,主机(服务器)只是提供CPU、内存


集群网络层面接口
1、集群管理通信网口:主机间信息同步、集群管理,虚拟机操作
2、存储通信网络:访问共享存储
3、数据通信网络:vxlan通信网络、虚拟网络内部跨主机通信
4、物理出口:虚拟网络跟物理网络之间的桥梁


vSphere HA 用于意外故障切换,当监控到群集中有主机意外故障时,虚拟机会自动切换到其他主机上承载服务
1、ESXI主机故障(将虚拟机切换到其它的ESXI主机上)
2、客户OS故障(群集侦听虚拟机心跳信号,若虚拟机长时间没发送信号,群集将重启虚拟机)
3、应用程序故障(安装VMware Tools,需要第三方检测代理,中断恢复)

缺点:存在down机时间

VMware Tools心跳信号网络,使用VMkernel端口

1、主控和从属主机之间发送心跳
2、用于确定主控和从属主机是否出现故障
3、通过心跳信号网络发送


Master的作用
1、Master监视slave主机,当slave主机出现故障时重启虚拟机
2、Master监视所有被保护虚拟机的电源状态,如果被保护的虚拟机出现故障,它将重启这个虚拟机
3、Master管理在Cluster内部的主机清单,并且对添加和删除Cluster内部的主机进行管理
4、Master管理管理被保护虚拟机的清单,在每一次用户发起开关机操作时,更新这个清单,vCenter会要求Master保护或者不保护某些虚拟机
5、Master缓存Cluster配置,Master通知和提醒slave主机,Cluster配置的修改


定义集群名称

vSphere HA

根据实际情况

vSphere HA

设置HA虚拟机行为选项,虚拟机按优先级重启顺序,主机失去管理网络连接采取的动作

vSphere HA

通过VMware tools检测,如果未收到VMware tools心跳信号,则重置虚拟机,设置检测故障频率

vSphere HA

EVC增强型vMotion兼容性,主要针对CPU,模拟CPU一致性进行在线迁移
如果集群中有一个ESXI主机内存在开机状态的虚拟机,ESXI不能启用EVC技术

vSphere HA

vSphere HA

vSphere HA

解决单链路报警问题

vSphere HA

vSphere HA

FT对ESXI主机要求
1、相同的FT版本
2、必须**HA
3、必须启用EVC
4、相同共享存储、网络
5、需要一个传输FT日志的网络连接
6、兼容FT的CPU
7、支持FT的授权
8、在BIOS上启用硬件虚拟化HV

FT对虚拟机要求
1、只支持一个vCPU
2、虚拟磁盘必须要后置备预先置零
3、不可以有快照
4、虚拟机不能是克隆的
5、关闭电源管理

FT技术是为了解决物理主机层面出现故障,如果是虚拟机上应用出错或者应用底层OS出现故障的时候,这种情形FT是无法解决的










本文转自 周小玉 51CTO博客,原文链接:http://blog.51cto.com/maguangjie/1930624,如需转载请自行联系原作者