• 保存到桌面加入收藏设为首页
IDC话题

服务器出现宕机危机怎么办?

时间:2013-11-18 17:37:30   作者:idc机房   来源:IDC机房托管中心   阅读:6594   评论:0
内容摘要:服务器出现宕机不可怕,最怕的是不能及时处理好宕机危机,导致危机进一步恶化;下面我们分享运维管理员在出现宕机时应该怎么样沉着冷静的度过宕机危机。
在IT工作中遇到系统运行中断现象几乎在所难免,不管是电子邮件、互联网接入、电话系统还是业务流程,任何一个至关重要的环节出现问题,运维管理都必须要尽快修复它。运维管理如何
 
应对系统宕机的方式将决定职业生涯道路的走向撬淙诲椿之后接下来的几分钟或者是几小时内可能会想噩梦一般,但是CIO的不同反应就意味着截然不同的结果。
 
以下是10个技巧来帮助运维管理成功渡过宕机危机。
 
1、不要惊慌
    即使问是运维管理自己造成的,那么也不应该把时间浪费在考虑到底带来了多大麻烦,或是哪位高层会大发雷霆上。这也许会给运维管理的职业生涯画上句号,但是眼下不能担心这么多。运维管理最好的机会是去纠正错误,所能做到的就是保持一个技术清醒的脑,而不要让情绪占上风。这不是生死攸关的事,先解决问题,再想别的。
 
2、通过各种方法通知用户
    运维管理需要尽早告知用户和上级内部IT系统出现故障了。当然,主要的沟通方式,包括给公司内部电子邮件,或是使用即时通讯工具,联系部门负责人,让他们通知员工,这样就可以传递出一种“系统有故障了,马上就解决”的信号。
 
3、找到一个“挡箭牌”
    通知用户是第一步。找人来帮忙回答用户的问题是第二步。运维管理宣布知道了解这个事件,会让那些只是想确保运维管理意识到问题所在的人满意,但是更高级别的高管则会询问更新的状态和修复完成的时间点,这需要另外的人来应付这种情况了。有人出回答问题,而运维管理就可以安心地解决问题。即使是接待人员或者人力资源部门实习生,也必须在运维管理和这些人群之间有一个缓冲,至少是要等事态稳定了以后。
 
4、为面对公司内的人际关系做好理准备
    运维管理已经通知了用户并找到了一个能“穿针引线”的人,在运维管理进入战备状态之前还需要知道一件事——接下来将看到谁是真正的朋友。某些人可能看上去很挑剔,也许只是露个脸冷静地询问他能提供什么帮助或者计划出一个备选方案。你也许认为这种傲慢的同事会在运维管理困难的时候采取不正当的手段让其出糗,但也许最后他却变成了最同情运维管理的人。而另一位副总裁可能会突然变成盖世太保一样的可怕嘴脸,走过来说,“你知道这个事情有多严重吗?”如果发生这种情况,不要放在心上:他们很不高兴看到故障出现,此时此刻运维管理就是众矢之的。你不能控制他们的想法,但是运维管理可以控制自己的情绪。他们生气是可以理解的——钱是最重要的。不过不要将这演变成一场冲突。对嘲讽视而不见,并礼貌地告诉他们:“我们可以找出问题出在哪里以及这是谁的责任,但是我需要这个时候集中精力去解决它。”然后,一切就都安静了。尽量不要把每分每秒的进度都向管理层汇报,这只会增加自己的压力,并分散精力导致技术能力被削弱。
 
5、记录下所有事情
    上面已经谈了四个技巧,但是没有一条是关于如何解决问题的。这是因为运维管理需要以尽可能最好的方式和环境来为解决问题铺平道路。花些时间来记录到底发生了什么:自己当时正在做什么,运行了什么命令,发生了什么事情,包括所有错误相关的消息。因为通常在这种情况下,运维管理的记忆会变得一塌糊涂。随着运维管理不断地试图解决问题,记录下发现的事情以及为了修复所作出的所有尝试,是十分有必要的。重启服务了吗?重启设备了吗?升级注册密钥了吗?所有这些都应当记录下来。这个过程会救了运<管理和整个公司。因为当某些尝试不起作用的时候,运维管理还可以根据记录倒退回去,这样就不会在后面出现更多的错误。
 
6、记录下出现情况的所有事实
    不管最初的问题是否是运维管理自己所导致,其<会发现自己不得不处于十分忙乱的状态下。这是可以理解的,作为IT管理者,人们会在出现故障之后将矛头全都指向运维管理。“你到底干了什么?”这通常是在紧急情况之后最终用户们所问的第一个问题。运维管理可能会被视为要为“<有预计到要发生的事情”而负责。无论如何,一定不要在尝试解决问题的时候去试图掩饰什么,这只能让情况变得更糟。另外,上级高管或是其他高级别的最终用户很可能会仔细地阅读运维管理的报告,看看究竟发生了什么事情。系统记录事件、保留日志文件,并在某些情况下审核IT管理员的操作行为。总有什么事情导致了故障的发生,所以放一颗烟雾弹对谁都是没有好处的。一旦事实真相被揭露,那才真是“问题严重了”。
 
7、不要在无效的方案上重复多次
    每个人都有在第一次尝试不奏效时会再重复一次的倾向。这就像有人在人行横道上使劲不停地按绿灯按钮一样。这也是为什么一旦卡纸问题解决之后打印机会吐出许许多多相同的文件副本。有人甚至会想:如果单击16次“打印文件”不管用之后,那么第17次肯定会管用……在系统宕机期间,运维管理员希望系统能快速运转起来。但是,如果同时有四个方案可以尝试的话,不要试图一次性完成所有的尝试。无论短期内是否会松一口气,如果一次性尝试起作用的话,那么之后就会感到很内疚,因为操作者其实并不知道究竟是哪一步解决了这个问题,那么下一次出现同样问题时仍是十分麻烦的。运维管理必须准确找出真正解决问题的那个方法。
 
8、寻求帮助
    当运维管理使出浑身解数发现问题不是那么能轻易被解决时,不要犹豫,赶快寻求帮助。求助对象可以是产品供应商,也可以是其他人。这可能意味着运维管理需要暂停手头的工作来等着回复。即使只是觉得可能需要额外的支持,但最终也许真的就起到关键作用了。有些IT管理者宁愿疯狂地在baidu上寻找答案,焦急地尝试着A建议、B建议、C建议,也不愿意想供应商寻求帮助,以为供应商可能要求多支付额外的费用(其实很多都提供免费帮助了)。某些论坛上充斥的业余爱好者们的帮助建议,也许是有用的但一定不如对产品知根知底的专业人士,可能需要多花10倍的时间,甚至有可能在这期间最佳解决方案已经出现了但运维管理却并不知道。
 
9、做好事后报告
    假如运维管理及时发现问题并且一切都恢复了,那么所有人的工作都恢复正常,大家开始返回工作岗位,整个过程只是场噩梦,对吧?实际上,这并没有这么快结束。这时候运维管理可不能想着松口气,而是需要继续保持警惕,把所有记录下来的东西收集并整理好。通知所有有关的人,发生了什么,通过什么方法修复了问题,何确保不会再发生故障。
    运维管理还要设置警报或者程序以便更好地提前通知此类情况的发生。制定一项应急计划在最糟糕的情况下也能保证问题得到解决。如果是停电了,那么事后的报告中就包括如果系统恢复正常需要做的,以及问题没有解决需要做的事情。这是任何一位真正明智的CEO所希望看的。
 
10、不要对自己失去信心
    人们常常说,当计算机工作正常的时候,用户是不会打电话给服务台的。但运维管理在IT部门工作,系统中断可能是对IT专家们信心的一个重大打击,即使他们已经取得了一系列的成功。尝试换个角度想问题,如果刚刚遇到了5个小时的电子邮件中断,那么上一次遇到这个问题是在5年之前,那么平均每年电子邮件中断一个小时已经是一个相当不错ぜ吐剂恕保持积极的态度。毕竟已经完成了任务。当回到家的时候,不要质疑自己的才华和能力。正如在第9点中提到的,想一想从这件事中自己学到了什么。关于这个故障自己还可以做多少更多的
 
研究,以便以后更好的应对类似的事件。建立良好的同事关系,这样在紧急情况下就能有些


IDCsped 提供最新的IT互联网资讯,本着分享传播的宗旨,我们希望能帮助更多人了解需要的信息!

部分文章转载自互联网、部分是IDCsped原创文章,如果转载,请注明出处:www.idcsped.com !
微信号:13430280788  欢迎加微信交流!

标签:运维管理  宕机危机  
相关评论

销售电话:13430280788

Copyright © 2012-2017 | www.idcsped.com 版权所有

  粤公网安备 44010502001126号  粤ICP备12006439号-1