中国项目管理资源网

请站在用户的角度考虑系统恢复

2004/9/16 15:01:10 |  2744次阅读 |  来源:原创   【已有0条评论】发表评论

有些事情,比如说系统的恢复,看上去似乎很简单,但在实际操作中却变得越来越复杂,让人感到难以解释。有些时候,之所以会出现这种情况是因为不同的人看问题的视角不同--比如说IT人员和用户之间就存在这种问题;毕竟,同大多数用户相比,IT人员对系统的了解要全面细致的多。但是,还有一些时候,这种情况的出现是由一种误解造成的:什么是最重要的?IT人员和用户的理解自然不同。我自己也是在亲身经历了惨痛的教训之后才了解这些问题的。

我的经历
我负责的由初级网络建筑师和高级网络工程师组成的IT小组曾经负责一个网络安装项目。美国山区时间一天早晨四点,我们忽然接到电话,报告系统出现了问题。幸运的是,当时我们正在处理测试中的信息中枢出现的一些问题,所以大家的头脑都很清醒。我与电话中心的负责人通了话。主要的数据中心出现了问题。全部中枢服务都关闭了。他需要我们的帮助,需要赶在东海岸的人们上班之前恢复一些服务。

我让自己手下一半的员工回了酒店,另外一半留下来处理问题。在经过了最初几个小时的混乱之后,我们已经使相当部分的系统运行起来,足够用户的稳定使用了。与此同时,电话中心和数据中心的工作小组也在拼命工作。当先回酒店休息的另外一半小组成员睡醒之后,他们也立即赶来协助。

我们在非常短的时间内迅速完成了邮件系统的改装,使其不再依赖中央网络服务器,这样做虽然使邮件的路由变得复杂了,却使服务得到了恢复。几天后,ERP系统也完全恢复了正常。

尽管刚开始的时候情况有些混乱,但是从总体上来看,IT小组对于此次系统恢复过程还是相当满意的。我们面对非常困难的情况作出了迅速的反应,通过连续奋战使服务得到了恢复,甚至还通过一个新设计的电话系统随时向公司的管理人员和员工通报系统恢复的进展情况。的确,有些工作我们是可以以更高的效率完成的。但是,我们毕竟也是普通人,不可能保证以最高的效率完成所有的工作,这点应该是大家可以理解的。

但是,我们的好心情没能持续多长时间。由于无法得到自己想要的信息,客户们开始感到愤怒。从定货到货品发送,大多数用户在寻找自己需要的数据时都遇到了困难。有的用户甚至公开质疑IT部门在过去的三天内是否确实采取了恢复系统的行动。

我与IT用户组的一个负责人(我们就称他Dave吧)通了电话。Dave告诉我说,现在公司上下都在对IT部门表示质疑和愤怒。看上去我们似乎在工作的过程当中忽视了某些对于员工来说至关重要的东西--NetWare服务器上的一套电子表格,这套电子表格是每个员工在处理订单的时候都要用到的。我们在自我庆祝的时候丝毫都没有想到,我们的用户几乎无法进行他们的工作。

成功与失败并存
这次经历让我学到了很多重要的东西,使我对系统的恢复操作有了新的更深的认识。这些认识既来源于这次经历中的成功,也来自这次经历中的失败。

首先,从积极的方面来看,我们在这次系统恢复过程当中所采用的逐步恢复服务的计划还是成功的,因为这样确保了用户可以首先获得最基本的服务(登录,打印和收发区域内的电子邮件)。接下来,我们又恢复了我们认为最重要的点对点的通讯交流。在用户能够进行工作,客户可以发送订单后我们才开始全面恢复所有的服务内容。

其次,我们的员工管理计划进行的非常成功。我们把IT小组的成员分成了两个小组交替工作,每十二个小时换一次班,这样既保证了恢复工作的不间断进行,又使员工们不会由于工作时间过长而感到疲劳,影响工作。我们还根据工作需要来调整不同岗位上的员工数量。刚开始只有一少部分的员工负责二级数据中心的工作,其他人都把精力放在了接电话,发布信息,处理服务层次上。随着情况的不断好转,我们逐步的把员工都转移到了二级数据中心。

再次,我们的沟通战略虽然事先没有经过演练,但却以很高的效率完成了数据的发布。我们成功的利用了各种正式和非正式的渠道。即使是那些对我们的系统恢复工作不满的用户也不得不承认我们的恢复过程的公开性和透明度。他们可以定期了解到关于系统恢复的即时信息,在这一点上对我们有足够的信任。

不幸的是,并不是所有的事情都像我们希望的那样成功,那样顺利。就拿我们分层次的步骤来说吧。我们成功的恢复了那些我们认为重要的服务。但是,我们忽略了同用户的沟通,没有了解到对他们来说哪些服务是最重要的、是他们希望首先恢复的。有的时候,我们的猜测和判断是正确的,但有的时候,也会出现错误。在有过了这次经历的教训之后,我明白了:既然用户可以告诉我们他们认为哪些服务的恢复是最重要的,我们为什么还要去猜测呢?

我们向用户发布的信息有的时候也是互相冲突的。我们三个负责人(我本人,电话中心的负责人和数据中心的负责人)在向用户发布信息之前并不总是能够确定我们发布的信息是同步的。我们本来可以指定我们三人中的一人主要负责信息的发布工作,或者可以把这个工作交给CIO。但是,CIO太忙了,由于问题不仅仅出现在数据中心,他还有很多别的事情需要去做,所以我们不想再给他增加负担。

注意二级ERP
我们得到的另外一个教训是关于二级ERP的。我们把主要的精力放在了正式的ERP的恢复上。但是,大多数企业都有一个二级ERP,它由连接在一起的电子表格和桌面数据库组成,对大量的日常工作进行处理。我们公司的二级ERP是建立在一台旧的、没有保护的NetWare文档服务器上的。尽管公司的章程通常不允许我们为二级ERP提供正式的技术支持,但是有的时候,系统的恢复工作需要我们打破公司章程,以恢复二级ERP的商业功能。坦率的说,在问题发生之前,我们就应该将一些共享成分转移到我们可以提供支持的服务器上。

尽管随着公司业务的不断扩展,在各种各样的系统恢复过程中我又遇到过很多其他的问题(法律上的,操作上的,以及公司政策上的等等),但是有了这次经历中所获得的经验教训,在系统恢复的过程中我始终保持着分层次处理的观念,合理对员工进行配置,迅速进行协调沟通,并且从用户而不是IT人员的角度出发。有了这些"法宝",遇到再麻烦的问题我都能够从容妥当的处理了

作者: TechRepublic.com

【 发表评论 0条 】


网友评论
网友评论(共0 条评论)..

请您注意·自觉遵守:爱国、守法、自律、真实、文明的原则
·尊重网上道德,遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规
·严禁发表危害国家安全,破坏民族团结、国家宗教政策和社会稳定,含侮辱、诽谤、教唆、淫秽等内容的作品
·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
·您在中国项目管理资源网新闻评论发表的作品,中国项目管理资源网有权在网站内保留、转载、引用或者删除
·参与本评论即表明您已经阅读并接受上述条款