摘要:自2019年新冠疫情爆发,至今已近三年时间,疫情扰乱了我们的正常的工作和生活秩序,纵观2022年魔都--上海、帝都--北京,两场新冠疫情严重影响了生活生产秩序的有效进行,城市突然按下了“暂停键”,在过去的30多天里,有很多数据中心运维工程师经历了“机房生活”,条件艰苦,一个人做一个部门的工作,十几个人担起一个数据中心,甚至一个人兼职多部门作业,没有专门睡觉或淋浴的地方,把垫子和睡袋直接铺在过道上休息。 疫情防控形势严峻复杂,企业都积极响应政府要求落实居家办公,面对瞬息万变的疫情,我们除了做好防护外,必须有所准备,必须适应。 “作为一名运维从业者,必须要讲讲疫情为运维工作带来了哪些变化!” 01 疫情给运维工作带来的变化 首先就是人员精简,在疫情期间,为了避免聚集性疫情,大部分数据中心都采用AB岗轮班制、核心岗最小化办公或是现场封闭办公、居家协同,到岗率从原先的100%精简到50%,甚至不到10%。 其次需求骤增,大众的办公、医疗、生活等各行各业都离不开“线上”,离不开网络,举个例子,6月2日,美团发布2022年第一季度业绩,美团外卖营收同比增长至242亿元,支撑数字背后除了外卖小哥和商家,大概就是大量的服务器和网络数据了吧,服务器计算、存储和网络资源的需求急剧上升,运维工程师不仅要维持数据中心正常运行还要提高可用性,以便给急需的网络和计算提供服务,并对停电或极端天气事件等各种灾难有明确的应急预案。 在如此艰难环境下,无论主设备与备用设备是万万不可出现故障的,这无疑为运维带来了前所未有的挑战,数据中心管理者更是“压力山大”。我们迫切需要方案解决以上问题,人员精简是防疫的重要措施,那么我们只能考虑一下,如何提高运维工程师的工作效率了,且运维工程师的精力是有限的,那么我们势必要借助一些管理工具。 02 如何应对以上变化? 应急方案 例如本次北京疫情,某数据中心借助nVisual网络基础设施管理软件实现远程查看机房情况,网络部的同事在居家办公时发现业务异常后通过工单告知现场运维部同事实现远程配合排障。 不仅如此,nVisual网络基础设施管理平台利用可视化的方式清晰的记录设备与线缆、设备与设备之间的链路连接关系,并将数据中心全部设备以及线缆资料实现与对应设备线缆关联,建立了可视化的数据库。包括但不限于纸质资料、图像资料、字段信息(如设备IP地址、维保时间、负责人信息、配置OID、承载业务...)等。代替人工实现运维管理(包括事件管理、问题管理、变更管理、维护管理、故障管理、场地配置管理、设备生命周期管理、应急管理、质量管理、成本管理和安全管理等等)。 疫情当下,在日常作业中因为有了以上信息,知道重点业务由哪些设备承载,就可以实现重点业务重点保障、重点设备重点巡检,从而减少重大事故发生的几率,也规避有限人力资源浪费。 并且在发生故障时,有迹可循,循到的资料也能轻松看懂并掌握,利用现有数据以及历史故障记录等信息实现快速排障。居家办公的同事也可通过VPN远程访问nVisual了解数据中心现场情况,配合高效处理,减少企业损失。 数据量的增加,不可避免新需求增加,当数据中心需要新设备上架时,通过nVisual内嵌的智能引导工具,即可实现傻瓜式作业,人只需要配合手动上架即可,规划其合理性、最优最短路径、配置线缆类型等工作都可由软件代替。 通过以上手段提高突发疫情情况下,有限的运维工程师工作效率,让其时间集中于有意义的保障工作,而不是把时间浪费在四处抓瞎、多部门通信协同之下,要知道,在金融行业,一旦出现故障,损失可是以秒而计的。 长远之计 以上只是疫情突发的临时保障措施,疫情来势汹汹是没有预警的,企业唯一能做的,就是提前做好准备,这样当突发情况从天而降时,才能保障业务通畅、安全、平稳。 在整个数据中心生命周期中,数据中心运维管理是历时最长的一个阶段。运维管理是数据中心保障业务的重中之重,以前企业或是数据中心管理者总是将此重任寄望于“人”,但是人是不可控的、是有极限的、人与人之间也是有差异化的、能力也是参差不齐的,单纯依靠老师傅的切身经验口口相传,不如建立一套规范化、流程化的运维体系,将网络基础设施这样宝贵的资源数据记录在可控的服务器之中,这样就算疫情中在数据中心内部是新来的运维工程师,对目前数据中心情况不清晰,他也可以通过历史资料、设备信息快速掌握数据中心资源信息,快速投入到工作之中为企业带来价值。而不是由企业花费大量的时间,占用老员工工作时间用来“口口相传”。 随着互联网发展的不断深入和互联网应用的不断多元化,互联网数据规模呈指数级增长,对互联网数据中心的需求也将呈现指数级的增长。为满足当前互联网基础设施的需求,数据中心还将不断进行扩建,数据中心规模仍将保持上升的态势,这就对数据中心建设规模、承载业务以及存储与计算等技术提出了更高的要求,我们不应该再以老思路加上非常难维护的单机excel表格来管理我们的数据中心了,网络基础设施少说成百上千,端口、链路成千上万,人海战术能保障excel和CAD图纸上数据三五年的准确性,十几年呢?几十年呢?要知道我国通信技术日新月异,一个数据中心的投入使用可远不止三五年。相信在此次疫情之中,应当有不少运维工程师为了找寻故障点、调取资料等事情挠破了头,打遍了电话吧... 小结 目前,一切生产生活在平稳有序的恢复之中,企业数据中心管理者绝不可掉以轻心,势必要从中吸取经验,防患于未然,数据中心事故基本都是“不鸣则已,一鸣惊人”,安全生产,防大于治,选用nVisual网络基础设施管理平台为企业的业务运行浇筑起“铜墙铁壁”亦是大有裨益。 |
中国IDC服务网 ( 京ICP备2021033606号-3 )
GMT+8, 2024-11-23 03:12 , Processed in 0.038767 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2021, Tencent Cloud.