运维的辛酸泪
运维行业从一开始的手工时代,带现在的AI智能时代,已经发生了很大的变化.过去的系统运维通常被冠以专业背锅侠,除此之外还有一些好听的名字,比如
IT砖家
IT救火队
而且运维的工作,通常比较繁琐,鸭梨山大,7*24*365天待命,更要命的是,开发和运维简直就是冤家,开发希望改变,而运维希望稳定,开发希望开发一些工具来使用,而运维更愿意用已经稳定的运维工具.
在以前公司服务器只有二十几台,运维凭借超快的打字速度,用系统命令,分分钟就维护了.
后来,服务器越来越多,已经过了一百台 了,如果还是靠手打行不通了,这时候运维团队,开始改变,用shell脚本替代了部分手敲命令,速度有了明显提高.
好景不长,服务器已经超过200台,直奔千台,shell脚本已经完全没有了优势,一些自动化运维工具的出现解决了这一问题,但是另一个问题出现了,别人开发的工具,用的并不顺手.
而且随着业务的发展,更要求运维可以实现自动化和自主化,对于自动化很好理解,自主化又是什么呢?
在这里简单提三个方面
权限的分级, 根据角色划分权限,哪些命令能执行,哪些不能,以什么用户身份执行.
操作的固化,可执行命令固化,固化的东西傻瓜化,哪怕只是一个重启命令,设置成一个按钮,点击即可重启,不需要输入命令.
一切可追溯, 定期审计是一个很重要的问题.
运维这个部门是非盈利部门,如何省钱是运维的KPI
把监控做好是实现DevOps的第一步,在监控领域我们一直推崇,频繁告警,等于没有告警.
要把监控告警进行分级,按照重要紧急,重要不紧急等等的原则进行划分,能通过的邮件的,就不要微信通知,需要微信通知的,就不要打电话.介入处理的,第一时间停止告警.等等
昨天我有发一张图叫运维发展历程,事实上很多互联网公司,运维都经历过这些阶段.
运维一路走来,所遇到的问题,不仅仅是自己技术的提升,更重要的是解决的问题的能力,一个运维工作时间越久,遇到的问题就越多,这是你的财富
如果你的运维之路刚刚开始,那你以后会遇到这些问题:
比如:
开发语言比较杂
系统分散没有统一的部署规范
资源分散申请费时费力
集成元数据缺失
环境之间缺少有效隔离
项目上线费时,废纸,费力
项目交付周期漫长
完全依靠人力
机房搬迁,业务大面积迁移
设备故障频发,运维研发措手不及
设备批量过保,人工干预
业务资源吃紧,紧急扩容
线上代码突发bug紧急回滚,修复
等等
再加上云技术的发展,Docker ,K8S,openstack 等等新技术的出现,运维几乎毫无还手之力,更重要的是云技术,AI的发展已经让传统运维走向了末路,
所有传统运维要想改变,一个是学习新的知识,比如openstack,比如K8S,又或者一门开发语言.
在运维开发领域里面,其实不太注重你用什么语言,你可以用python,也可以用ruby,甚至你可以用go, 在一个28人的运维团队里面,有15个运维人员,7个运维开发人员,剩下的就是刚刚入职的应届毕业生.(这个并不绝对,仅作参考,而且很多公司并没有这么多运维,这个要看公司自己的发展.)
不过我并不建议你学习太多语言,一门python足够你使用,在你有Linux基础上,会python如虎添翼. 而如果你不会Linux,也不懂其他开发语言,就学python,想找个运维开发的工作,建议你直接买**,几率会大一些.
那么如何学习python呢?
今晚20:00 我们相约在千聊平台,一起聊一聊,如何学习python,怎样走好python运维开发的DevOps之路.
大家可以扫描下方二维码,参加今晚的课程.:
今晚课程有录播,请放心参与,