5.2 规划与准备-ITGov-IT治理研究中心

您现在的位置：ITGov-IT治理研究中心>> G3沙龙>> ITGov藏经阁>> IT风险：基于IT治理的风险管理之道>>正文内容

5.2 规划与准备

发布时间：2009年05月21日点击数：作者：来源：ITGOV中国IT治理研究中心

摘要:
过去，IT风险管理常被忽略或仅仅作为一个单纯的技术问题，但是，现在它已经成为组织治理的问题，是一个涉及到政府部门、监管机构、外部审计、技术服务提供商、董事会与管理层及所有利益相关者的问题。SOX法案更是通过内部控制有效性声明和严厉惩罚将法律与IT风险问题绑定。鉴于此，谨向上述人士推荐此书，相信本书的出版对于推动IT风险管理领域的发展有着非常积极的意义。

5.2 规划与准备
         连续性保障主导着规划和准备的内容，我们从何处入手呢？对大多数机构而言挑战在于如何起步。他们一开始总是试图找出所有对业务构成影响的威胁和风险—— 但往往劳而无功。正确的方法应该包含三个步骤：
         ●      实施业务影响分析。
         ●      设定灾难规避—灾难恢复目标。
         ●      采取行动达到灾难规避—灾难恢复目标。
         5.2.1 业务影响分析
         如果因为不能提供合乎要求的信息技术服务而导致机构业务目标无法达成，那么确定一个明晰的业务影响和服务连续性目标就变成了一个至关重要的课题。随着越来越多的机构实现了业务系统同客户、供应商系统的直接连接，信息技术服务连续性问题的解决难度、迫切性以及优先级也会随之提升。再加上使用了第三方的供应商提供的服务，服务级别的问题就有了更多的外部关联。但另一方面的问题是如果这些服务仅仅为内部提供的，那么又很难对每项服务做出明确定义。
         信息技术服务连续性问题就从明确定义拟提供的各项信息技术服务开始。在一些机构，服务的定义体现在业务流程中，而不是在信息技术服务里面。因此每种服务或流程对业务运营产生的结果需要明确下来。如果业务流程中断，那么在总量上可以容忍一小时？4小时？还是12小时乃至更长？如果我们一天之内都不能更新客户服务需求记录，后果是什么？如果不是造成非常严重的业务影响，那么损失可能也未必需要用金钱来衡量，但是必须满足质量评估的要求。
         问题的关键在于找出服务或流程对业务效能构成什么样的影响，以此为基础决定我们对这些流程和服务给出多大的关注。必须特别关注重要的流程和服务，了解它们的每个组成部分的活动以及对资源的需求，因为资源的短缺也会导致服务的中断。
         业务影响分析虽然并不能够确定威胁发生的触发点，也不能确定其发生的可能性，但这种分析在本质上还是结果驱动的：对每种服务中断，我们都要问业务流程上会发生什么。根据业务结果来决定每种服务恢复的优先级。一旦我们不得不切换到后备系统，那么我们第一个恢复的业务应用是哪些？哪些服务应该保留在恢复清单里？哪些又可以忽略？
         5.2.2 灾难规避与灾难恢复
         面对各种资源的短缺威胁，机构的反应无外乎两种：
         ●      采取规避或者缓解行动来增强面对威胁的故障忍耐力。
         ●      采取行动来提升恢复能力，一旦威胁事件出现，将其影响控制在可接受的范围。
         简单地说就是采用降低风险和减轻后果这两种办法。当然也存在另一种可能，那就是风险是可承受的，那么也就无所谓应对。但这不应该被看成因人为疏忽而导致“偶然决定”的通例。相反应该是经过主动的、现实的业务影响评估再得出的结论。
         在某些机构里面，有关是否可以承受某些风险，是否可以承担这些风险可能造成的后果同样需要一个决策过程。而这个过程本身可能会引致对有关职员进行粗暴的信任审查。也可能会吃惊地发现某些灾难的事件出现后，甚至一个月内都不能恢复业务运作，但却是可接受的。
         但对于以下问题的答案就不是是或非那么简单了：是否需要恢复流程？需要多少种恢复流程？怎样才能避免恢复流程？如何规划一个恢复流程？等等。我们建议把机构对业务影响的可容忍度分成5个级别。
         5.2.3 保障级别
         所有业务部门的领导人都会有一个倾向，就是夸大本部门使用的系统、服务甚至于部门自身对机构其他部门的重要性。为了区分服务的优先级，有必要确定保障的级别。一套覆盖全机构的、预定义的保障级别可以按以下5种级别和大致对应的最大可容忍停顿(MTO)来划分：
         ●      白金级(五星)—— MTO小于1小时；
         ●      黄金级(四星)—— MTO小于1天；
         ●      银级(三星)—— MTO小于1周；
         ●      铜级(两星)—— MTO小于1个月；
         ●      无标准—— 未定义。
         实际上，机构可能有其自己的一套标准，尽管它可能是服务提供部门主导订立的。
         而最重要的管理责任是将保障级别同业务影响相匹配，以确保资金和优先级都能够按照这套标准进行恰当地配置。标准在表5-1，5-2，5-3，5-4和5-5种详细描述。
         表5-1 白金标准(五星)

灾难规避　　

灾难恢复　　

• 最高级的可用性、可靠性和数据完整性　　
• 已论证的、成熟的和有效的操作与支持模式，扩展到所有的流程领域，支持24/7运作　　
• 在IT基础设施中没有单点登陆失败的风险　　
• 最高级的物理与逻辑访问控制，规范的审计与评审机制　　
• 系统的所有构件都得到高技能团队的支持，并由合约供应商在共同的服务级别协议的基础上提供后备支援　　

• 较大范围的重要服务的快速恢复(以分钟计)，包括主系统的宕机，一般采用启动“热”备系统的方法　　
• 产品系统特色和功能性都能由DR平台提供，很小的效能降低　　
• 高可靠性的能力支持：实施有效的DR响应，最新的、已测试的、规范文档化的规划　　
• 同用户部门的业务持续性计划有良好的集成/衔接　　

表5-2 黄金标准(四星)

灾难规避

灾难恢复

• 较高级别的可用性、可靠性和数据完整性
• 成熟的和有效的运作、支持模式，重大问题及事故管理，典型的24/7运作
• 在IT基础设施中采用消除单点失效分析的设计方案
• 较高级别的物理与逻辑访问控制
• 系统的所有构件都得到内部团队合适职员的支持，并由当前供应商在服务协议的基础上提供后备支援

• 较大范围的重要服务的快速恢复(以小时计)，包括主系统的宕机，典型的采用启动“热”备系统或者“温”备系统的方法
• 产品系统特色和功能性能够由DR平台提供，可接受的效能降低
• 高可靠性的能力支持：实施有效的DR响应、最新的、已测试的、规范文档化规划
• 同用户的业务持续性计划有良好集成/衔接

表5-3 银标准(三星)

灾难规避

灾难恢复

• 良好级别的可用性、可靠性。偶尔出现意外和对客服务中断
• 良好级别的数据完整性，对信息错误有一定程度的容忍
• 适当的运作支持模式，但在问题与事故管理中可能存在一些已知的缺陷。可忍受主要业务中断数小时，但提供受限的数小时后的呼叫支持
• 在IT基础设施设计上尽力做到避免单点登陆失败的威胁，但偶尔还是会出现
• 适当的物理与逻辑访问控制，但在一些安全流程和控制上可能存在某些弱点
• 系统得到在场的专职职员的支持，但某些环节可能会依赖单个的专家的知识和团队的能力，供应商对某些构件提供后备支援

• 有限的服务按计划、尽管可能是低优先的恢复，包括主系统的宕机。恢复时间以天计，典型采用“冷备”系统的方法
• 有限的产品系统特色和功能性能由DR平台提供，明显的效能降低/使用要求的变更(比如，少些用户)
• 可信的DR响应能力，规范文档化规划支持，角色和恢复方法可能都存在某些不清晰，有限的或没有测试和预演
• 同用户的业务持续性计划有某种程度上的衔接

　　
表5-4 铜标准(二星)

灾难规避

灾难恢复

• 可用性、可靠性时有变化。意外的停顿和对客服务中断时常出现
• 数据完整性不是非常重要，容忍信息错误
• 运作支持模式存在已知的缺陷，具备一定的问题与事故管理能力。通常数小时后都未必得到支持
• 在产品系统存在单点登陆失败。物理与逻辑访问控制可能存在某些弱点
• 没有专门的支持团队，角色和责任也不明晰，知识和技能的差距极可能影响对问题的反应。供应商对某些构件也缺乏后备支援

• 低优先级恢复。恢复周期可能长达数周。如果只能提供有限的人力资源的话，可能就无法恢复。
• DR计划是非正式的或者只是高级计划。一旦灾难发生会造成什么样的后果未经深思熟虑，也缺乏前瞻性
• DR平台只具备有限的能力或者在灾难情境下无法具备DR支持能力
• 不太可信的DR响应能力，未经测试/预演，甚至没有规划
• 具有可信的备份过程，但是可能涉及经证实的、用于离线存储的、备份介质的使用

表5-5无定义标准

灾难规避	灾难恢复
• 系统基本上是“有什么就提供什么” • 没有规范的系统管理、监管、运作和支持 • 一般用于监管和操作的文档也很缺乏	• 不提供正式的DR • 随意灵活的备份/恢复能力，缺乏中心管理，缺乏规范的备份介质的离线存储 • 基本不可信的灾难反应能力

上一篇：5.1 影响业务的信息技术服务失效下一篇：5.3 实现不间断的信息技术服务

推荐专题

IT治理框架

信息化/电子政务运维管理

G3研究课题

关于ITGov | 关于G3论坛 | 联系ITGov