软考分类精讲-系统可靠性分析与设计
系统故障模型
系统可靠性分析—可靠性指标
可靠性与可用性
- 系统可靠性是系统在规定的时间内及规定的环境条件下,完成规定功能的能力, 也就是系统无故障运行的概率。
- 系统可用性是指在某个给定时间点上系统能够按照需求执行的概率
- 提高可靠性需要强调减少系统中断(故障)的次数,提高可用性需要强调减少 从灾难中恢复的时间
系统可靠性分析—串联系统与并联系统
系统可靠性分析—模冗余系统与混合系统
系统容错—概念分类
系统容错—冗余系统
处理故障的步骤
- 故障检测
- 故障屏蔽
- 故障限制
- 复执故障诊断
- 系统重配置
- 系统恢复
- 前向恢复:使当前的计算继续下去,把系统恢复成 连贯的正确状态,弥补当前状态的不连贯情况.
- 后向恢复:系统恢复到前一个正确状态,继续执行
- 前向恢复适用于可预见的易定义的错误;
- 后向恢复 可屏蔽不可预见的错误
- 后向恢复简单地把变量恢复到检查点的取值;
- 前向恢复将对一些变量的状态进行修改和处理,且这个恢 复过程将由程序设计者设计
- 系统重新启动
- 修复系统重组合
系统容错—软件容错—N版本程序设计
- 与通常软件开发过程不同的是,N版本程序设计增加了三个新的阶段:相异成份 规范评审、相异性确认,背对背测试
- N版本程序的同步、N版本程序之间的通信、表决算法(全等表决、非精确表决、 Cosmetie表决)、一致比较问题、数据相异性
系统容错—软件容错—恢复块方法
- 设计时应保证实现主块和后备 块之间的独立性,避免相关错误 的产生,使主块和备份块之间的 共性错误降到最低程度。
- 必须保证验证测试程序的正确性。
系统容错—软件容错—防卫式程序设计
- 对于程序中存在的错误和不一致性,通过在程序中包含错误检查 代码和错误恢复代码,使得一旦错误发生,程序能撤销错误状态,恢 复到一个已知的正确状态中去
- 实现策略:错误检测、破坏估计、错误恢复
系统容错—双机容错
- 双机热备模式(主系统、备用系统)
- 双机互备模式(同时提供不同的服务,心不跳则接管)
- 双机双工模式(同时提供相同的服务,集群的一种)
系统容错—集群技术
集群优点
- 可伸缩性
- 高可用性
- 可管理性
- 高性价比
- 高透明性