谈谈SRE(含有SRE成长路线图)

SRE也被称为站点可靠性工程师,就是通过在运营中使用软件开发的背景来处理基础结构问题。 企业需要可靠的系统来竞争和做出准确的决策。 站点可靠性工程师协助扩展软件的操作。 站点可靠性工程师通过确保流畅的自动化功能,专注于软件系统中的手动流程。

通过使用他们的编码技能,站点可靠性工程师可以创建有助于运营自动化的软件功能。 系统开发的执行和系统功能的工具是由站点可靠性工程师执行的角色。 站点可靠性工程师测量指标以确定开发系统的功能。

首先谈谈什么是可靠性,可靠性指的是设备在一定的环境下可以正常工作能力的的一种度量。可靠性需要给出MTBf检验值。通常我们通过可靠性试验进行推算设备可靠性的,也就是设备可以无故障的工作时间范围(MTBF验证区间)。这个时间范围其实是一个概率落点和风险评估的一个结果。第二在可靠性工程师需要的技能,需要很好的统计学基础和物理失效原理。其次还需要懂得设备的环境试验技术。

为什么诞生 SRE?

原因一:企业成本的增长同用户的增长不成线性变化。但是随着系统的复杂度提升,组建越来越多,用户的流量压力也越来越大,相关的变更也会越来越多,各模块之间的变更顺序也会越来越复杂。在这样的情况下,单纯的靠运维人力的数量提升无法满足业务的发展需求,而且会提升企业的成本;

原因二:传统的研发团队和运维团队天然具有冲突。公司的IT人员的配置:研发(Dev)和运维(Ops),研发部门聚焦在快速构建和快速发布;运维部门关注的是如何避免发生故障,从目标上讲就是矛盾的。且随着 IT 技术的发展,对 IT 从业者的要求也越来越高,既要懂得底层系统,也要懂得数据算法,同时对主流技术还要快速追赶,满足这样要求的人才太少;

原因三:生产工具为适配生产力发展的必然产物。为了提高IT行业的整体效率和质量,使得从手工运维时代,逐渐过度到脚本工具运维,在发展到平台数据运维,再到平台软件运维,在发展到智能自动化运维。通过一系列手段、工具、理念的进步,将 Ops 技术发展到 DevOps、DataOps、AIOps 等;

关于SRE的几个认知误区

1、SRE 就是运维SRE不止于运维,确实部分公司的SRE岗位工作内容与传统的运维或者系统工程师相近,但主流或者说未来的SRE是一个技能综合性岗位,不仅需要运维能力,也需要软件工程能力、技术架构能力、编码能力、以及项目管理与团队协作能力。

2、SRE 不需要懂业务

脱离了业务的架构是没有灵魂的!不懂业务的SRE是不合格的SRE,SRE要参与的技术与运维架构的优化与未来规划,同时也要协同业务团队完成故障排查,疑难杂症的处理,这些工作没有对业务的理解是无法很好的完成的(甚至无法完成)。

谈谈SRE(含有SRE成长路线图)

SRE工作模式就是以增加网络稳定性、减轻网络运维工作量为目标,运维工程师自主开发以实现自身的IT自动化和智能化需求,在不增加人力成本的同时有效减少个人运维工作量。这也是未来SRE工程师取代传统运维工程师的关键所在。

SRE与DevOps

“DevOps” 这个术语在 2008 年末出现,其核心原则:IT 部门在系统设计和开发的每个阶段的参与、严重依赖自动化与人力投入、工程实践和工具在操作任务中的应用,与许多 SRE 的原则和实践一致。人们可以将 DevOps 视为几种核心 SRE原则向更广泛的组织,管理结构和人员的推广。可以等价地将 SRE 视为具有某些特殊扩展的 DevOps 的特定实现。目前国内很多一线大厂互联网企业为了提升用户价值的交付效率,都在积极采用微服务、容器等分布式技术和产品,也在积极引入像 DevOps 这样的先进理念。这些公司,选择了正确的架构演进方向和交付理念,效率自然提升了一大截。但你会发现,效率提升的同时,挑战也跟着来了:引入如此众多的先进技术和理念后,这种复杂架构的系统稳定性很难得到保障,怎么办?答案就是:SRE。SRE 到底有什么过人之处呢?给大家分享下SRE稳定性保障规划图:

谈谈什么是SRE?(含有SRE成长路线图) 所以说,近几年业界对 SRE 的关注越来越多,大家几乎达成了共识——Google SRE 就是目前稳定性领域的最佳实践。甚至可以说,SRE 成为了稳定性的代名词。

上面这些也是我整理的一些关于SRE的皮毛知识,想更加深入了解这个岗位的,不妨看下我对SRE大厂工程师成长路线的一个详细描述,纯干货分享很值得一看!

还有一份SRE成长路线图,大家按需取用。高清版 谈谈SRE(含有SRE成长路线图)

我这边之前还收藏了一份IT行业技能知识图谱,里面包含了架构师、java、云计算图谱等等,都是很实用的,也分享给大家。高清版 谈谈SRE(含有SRE成长路线图)

※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南]CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领