仗技术人员的应变能力。技术人员不得不频繁面对同样的变更和问题,而无心力进行进一步的能力挖掘。
如果一个熟练运维人员的岗位发生变更,当问题再出现时,就很难得到迅速处理。即使会有新人继续前人的工作,但他却无法继承前人的运维经验,这成为企业运维成本增加、重复投资的重要原因。
以上5点都是导致IT运维成本无法下降的因素,接下来我们就要讨论该如何降低IT运维成本。
4 如何保障高可用性和降低IT运维成本
(1)根据企业发展战略,定制合理的运维目标和SLA。传统IT运维管理方式往往更注重IT技术指标,而这些指标的提升是否对企业发展有利,却无人问津。不同的运维模式对成本的要求也不同,对能满足的SLA也不尽相同。
所以,IT运维必须从后台走向前台,根据业务需求定制更明确的IT运维目标和技术指标,并以此来选择更适合企业当前阶段的运维模式,使运维成本最大可能发挥作用。
(2)引入戴明质量环质量控制模型,推行流程标准化控制。人员操作失误导致IT运维故障的比例远远高于硬件故障造成的事故,约占全部事故的80%。推行操作流程标准化,引入戴明质量环,每个变更操作依照计划—实施—检查—改进的步骤进行。计划阶段则对变更操作每个步骤制定明确、详细的执行操作手册;
实施阶段则严格依照执行操作手册进行变更;检查阶段则由非实施者对实施者的步骤进行复核;改进阶段则是根据实施实际情况对计划中制定的操作手册进行优化、改进。由这种方式来进行变更操作控制,将由于人为操作失误导致的隐形IT运维成本降到最低。
(3)IT运维规范化,减少运维随意性的浪费。运维管理包含人员、岗位、角色等信息,但如果这些信息没有统一规划,就无法进行统一管理。标准化运维流程是把运维各种事情(包括人员,资源,突发事故)分成不同级别,规范运维操作,以便有效的控制运维成本。因此,对于企业而言,IT系统的规范化运维是降低IT运维成本支出的重要因素。
(4)建立知识库平台,最大程度节省人力成本。知识库平台是指对IT运维中的出现的故障事件和问题解答统一存放并建立对外问题查询系统的平台。用先通过该平台寻找解决方法。如果问题没有得到解决,则用户在该平台进行问题申请维护,运维中心为用户每次维护申请都将在该平台中建立服务档案,并一直实时监控,直到问题得到圆满的解决,成功解决的问
题自动归档入知识库,为之后的用户提供自助服务。因此,知识库平台能帮助运维人员节省大量的时间,从而节省人力成本支出。
(5)加大监控力度,提高运维反应速度。之前阐述了来电响应式运维的不足之处,要化被动为主动,首先要做的就是加大监控力度。这里所说的监控包括两方面:一方面,对问题进度跟踪和监控。需对问题处理状态和时间进行实时监控,若发现无法及时解决该问题,应立即升级或转交问题至其他部门或二线,以防止问题恶化;另一方面是对IT系统的监控,采用预警机制,在问题未发生前向相关运维人员报警。同时,要对监控数据进行定期分析,找到问题的根源和影响运维速度的因素,针对性地进行改进,将救火式的被动运维改变成可控式的主动运维。
(6)IT运维半自动化,提高人力成本使用效率。IT运维中有很多时间和精力要花费在重复的事情上,若采用纯人工方式的话,需要大量IT运维人员和时间来完成这些工作。但是,随着IT技术的发展,已经有很多自动化工具诞生,可以帮助IT运维将重复又简单的工作化繁为简,将运维人员从中解脱出来,从事更专业的运维研究,形成良性循环。
(7)采用IT资源动态共享化,降低固定资产成本。可以采用IT资源动态共享化,通过虚拟系统、共享存储等方法来提高资源利用率,规避IT资源出现东边不足,西边过剩的情况。