过去,IT风险管理常被忽略或仅仅作为一个单纯的技术问题,但是,现在它已经成为组织治理的问题,是一个涉及到政府部门、监管机构、外部审计、技术服务提供商、董事会与管理层及所有利益相关者的问题。SOX法案更是通过内部控制有效性声明和严厉惩罚将法律与IT风险问题绑定。鉴于此,谨向上述人士推荐此书,相信本书的出版对于推动IT风险管理领域的发展有着非常积极的意义。
5.2 规划与准备
连续性保障主导着规划和准备的内容,我们从何处入手呢?对大多数机构而言挑战在于如何起步。他们一开始总是试图找出所有对业务构成影响的威胁和风险—— 但往往劳而无功。正确的方法应该包含三个步骤:
● 实施业务影响分析。
● 设定灾难规避—灾难恢复目标。
● 采取行动达到灾难规避—灾难恢复目标。
5.2.1 业务影响分析
如果因为不能提供合乎要求的信息技术服务而导致机构业务目标无法达成,那么确定一个明晰的业务影响和服务连续性目标就变成了一个至关重要的课题。随着越来越多的机构实现了业务系统同客户、供应商系统的直接连接,信息技术服务连续性问题的解决难度、迫切性以及优先级也会随之提升。再加上使用了第三方的供应商提供的服务,服务级别的问题就有了更多的外部关联。但另一方面的问题是如果这些服务仅仅为内部提供的,那么又很难对每项服务做出明确定义。
信息技术服务连续性问题就从明确定义拟提供的各项信息技术服务开始。在一些机构,服务的定义体现在业务流程中,而不是在信息技术服务里面。因此每种服务或流程对业务运营产生的结果需要明确下来。如果业务流程中断,那么在总量上可以容忍一小时?4小时?还是12小时乃至更长?如果我们一天之内都不能更新客户服务需求记录,后果是什么?如果不是造成非常严重的业务影响,那么损失可能也未必需要用金钱来衡量,但是必须满足质量评估的要求。
问题的关键在于找出服务或流程对业务效能构成什么样的影响,以此为基础决定我们对这些流程和服务给出多大的关注。必须特别关注重要的流程和服务,了解它们的每个组成部分的活动以及对资源的需求,因为资源的短缺也会导致服务的中断。
业务影响分析虽然并不能够确定威胁发生的触发点,也不能确定其发生的可能性,但这种分析在本质上还是结果驱动的:对每种服务中断,我们都要问业务流程上会发生什么。根据业务结果来决定每种服务恢复的优先级。一旦我们不得不切换到后备系统,那么我们第一个恢复的业务应用是哪些?哪些服务应该保留在恢复清单里?哪些又可以忽略?
5.2.2 灾难规避与灾难恢复
面对各种资源的短缺威胁,机构的反应无外乎两种:
● 采取规避或者缓解行动来增强面对威胁的故障忍耐力。
● 采取行动来提升恢复能力,一旦威胁事件出现,将其影响控制在可接受的范围。
简单地说就是采用降低风险和减轻后果这两种办法。当然也存在另一种可能,那就是风险是可承受的,那么也就无所谓应对。但这不应该被看成因人为疏忽而导致“偶然决定”的通例。相反应该是经过主动的、现实的业务影响评估再得出的结论。
在某些机构里面,有关是否可以承受某些风险,是否可以承担这些风险可能造成的后果同样需要一个决策过程。而这个过程本身可能会引致对有关职员进行粗暴的信任审查。也可能会吃惊地发现某些灾难的事件出现后,甚至一个月内都不能恢复业务运作,但却是可接受的。
但对于以下问题的答案就不是是或非那么简单了:是否需要恢复流程?需要多少种恢复流程?怎样才能避免恢复流程?如何规划一个恢复流程?等等。我们建议把机构对业务影响的可容忍度分成5个级别。
5.2.3 保障级别
所有业务部门的领导人都会有一个倾向,就是夸大本部门使用的系统、服务甚至于部门自身对机构其他部门的重要性。为了区分服务的优先级,有必要确定保障的级别。一套覆盖全机构的、预定义的保障级别可以按以下5种级别和大致对应的最大可容忍停顿(MTO)来划分:
● 白金级(五星)—— MTO小于1小时;
● 黄金级(四星)—— MTO小于1天;
● 银级(三星)—— MTO小于1周;
● 铜级(两星)—— MTO小于1个月;
● 无标准—— 未定义。
实际上,机构可能有其自己的一套标准,尽管它可能是服务提供部门主导订立的。
而最重要的管理责任是将保障级别同业务影响相匹配,以确保资金和优先级都能够按照这套标准进行恰当地配置。标准在表5-1,5-2,5-3,5-4和5-5种详细描述。
表5-1 白金标准(五星)
灾 难 规 避 |
灾 难 恢 复 |
• 最高级的可用性、可靠性和数据完整性 |
• 较大范围的重要服务的快速恢复(以分钟计),包括主系统的宕机,一般采用启动“热”备系统的方法 |
表5-2 黄金标准(四星)
灾 难 规 避 |
灾 难 恢 复 |
• 较高级别的可用性、可靠性和数据完整性 |
• 较大范围的重要服务的快速恢复(以小时计),包括主系统的宕机,典型的采用启动“热”备系统或者“温”备系统的方法 |
表5-3 银标准(三星)
灾 难 规 避 |
灾 难 恢 复 |
• 良好级别的可用性、可靠性。偶尔出现意外和对客服务中断 |
• 有限的服务按计划、尽管可能是低优先的恢复,包括主系统的宕机。恢复时间以天计,典型采用“冷备”系统的方法 |
表5-4 铜标准(二星)
灾 难 规 避 |
灾 难 恢 复 |
• 可用性、可靠性时有变化。意外的停顿和对客服务中断时常出现 |
• 低优先级恢复。恢复周期可能长达数周。如果只能提供有限的人力资源的话,可能就无法恢复。 |
表5-5无定义标准
灾 难 规 避 |
灾 难 恢 复 |
• 系统基本上是“有什么就提供什么” |
• 不提供正式的DR |
京ICP备06004481号 Copyright 2002 - 2006 ITGov.org.cn, All Rights Reserved