12:以一个实例来说明如何建设信息系统灾难备份体系?
发布时间:2011年06月16日点击数: 作者:孙强、孟秀转 来源:ITGov中国IT治理研究中心
【字体: 收藏 打印文章
摘要:
国内某金融机构已完成了全国范围的数据集中工作,不仅统一了全行的业务应用,而且为金融产品创新打造了一个稳固的基础平台,形成了一个数据中心、一个应用版本、一个系统网络。数据大集中的实现,从整体上提高了该金融机构的竞争力,与此同时对信息系统灾难恢复能力也提出了更高的要求。建立健全完善的信息系统灾难恢复管理体系,是保证该金融机构实现业务持续性的重要基础。良好的灾难恢复管理机制

12:能否用一个实例来具体说明如何建设金融机构的信息系统灾难备份体系?

1.背景介绍

国内某金融机构已完成了全国范围的数据集中工作,不仅统一了全行的业务应用,而且为金融产品创新打造了一个稳固的基础平台,形成了一个数据中心、一个应用版本、一个系统网络。数据大集中的实现,从整体上提高了该金融机构的竞争力,与此同时对信息系统灾难恢复能力也提出了更高的要求。建立健全完善的信息系统灾难恢复管理体系,是保证该金融机构实现业务持续性的重要基础。良好的灾难恢复管理机制,可以减少事故带来的损失,甚至化解灾难的形成,对于提高该金融机构信息系统的可用性,保障业务的顺利开展有着重大意义。同时,面对合规的诸多要求,许多金融机构都在加大力度进行公司全面风险管理体系的建设,减少操作风险对业务带来的影响。正是基于上述考虑,该金融机构决定在现有应急管理体系的基础上,建立科学的信息系统灾难恢复管理体系,以提高应对灾难的能力。

2.项目需求

该金融机构信息系统灾难备份体系建设的主要需求如下:

通过对关键业务系统(核心业务系统、ATM系统、支付系统等)进行风险分析和业务影响分析,确定该金融机构的业务持续性建设策略;

针对关键业务系统,开发信息系统灾难恢复预案;

对灾备运维管理体系进行设计;

结合信息系统灾难恢复预案,对该金融机构信息系统灾难备份系统进行演练。

3.实施过程

该金融机构信息系统灾难备份体系建设咨询服务项目由该金融机构信息科技部和咨询机构联合组成项目组,以DRII的有关业务持续性管理的最佳实践为指导进行项目实施。在项目实施过程中,充分考虑了BS25999、GB20988、巴塞尔协议及监管部门有关标准和合规的要求,保证信息系统灾难备份体系既能满足合规性的要求,又能符合该金融机构的实际情况。该项目的实施主要分为以下几个阶段:

(1)项目启动阶段

项目启动阶段的主要目标是就项目计划和实施方式与客户达成共识,并通知各相关部门做好准备,为项目的顺利实施提供保障。在项目启动阶段制定了详细的项目实施计划,明确了项目的里程碑及关键交付物,同时针对该金融机构的有关部门及项目组人员进行了业务持续性管理、灾难备份的意识教育,对项目实施的方法论进行了介绍。

(2)风险分析阶段

根据GB20984、ISO27001等相关标准的要求,结合该金融机构信息安全管理的实际情况,通过问卷调研、访谈等方式分别对该金融机构核心业务系统、ATM系统和支付系统等相关的业务流程、系统架构、应用系统环境等进行了风险分析,确定了可能造成该金融机构相关业务流程、系统架构及应用环境等中断和灾难的因素。实现的主要目标如下:

对残余风险进行了明确,对主要的风险分类和灾难场景进行了确定;

可能对该金融机构造成不良影响的事件;

确定了周边环境和气候、地理、地质等自然因素可能对该金融机构生产中心关键信息资产造成的风险;

针对业务流程、系统架构和应用环境等方面所面临的风险给出了风险控制的建议。

(3)业务影响分析阶段

以国际灾难恢复协会(DRII)的理论为依据,针对该金融机构的核心业务系统、ATM系统和支付系统,根据业务系统的特点设计调查问卷,通过问卷反馈和相关部门的访谈等方式,了解业务实现的技术平台、业务流程、业务范围等方面内容,完成资料的收集工作。通过对资料进行分析整理,编写业务影响分析报告,提出业务恢复策略意见。主要内容包括:

 识别和分析业务功能和支持业务的应用系统;

 运用业务影响分析方法论和工具评估各业务信息系统中断造成的损失和影响;

 分析各业务系统可容忍中断的最大时间长度,确认各业务系统的恢复时间目标(RTO)需求;

 分析各业务系统数据丢失的容忍程度,确认各业务系统的恢复点目标(RPO)需求;

 确定业务系统和业务功能的关键程度,对灾难发生时各业务系统的恢复优先级进行排序;

 确定支持各信息系统所需的最小恢复资源。

(4)策略开发阶段

根据成本风险平衡的原则,在前期进行风险分析和业务影响分析的基础上,考虑该金融机构业务发展的需要和信息化现状,明确该金融机构业务持续性管理及灾备建设的策略,主要包括灾难恢复建设规划、灾难恢复能力等级、灾难恢复建设模式和灾难备份中心布局。

核心业务系统、ATM系统和支付系统作为该金融机构的关键业务系统,其灾难恢复能力按照GB20988中的5级标准进行设计,灾难恢复建设模式采用自建方式,首先建立同城灾备中心,对建筑物级灾难实现应用级备份;3年之内建立异地灾难备份中心,实现对区域级灾难的备份。

在该阶段,还对该金融机构其他重要业务系统的灾难备份建设工作进行了规划,作为该金融机构后续工作的指导。

(5)灾难恢复预案开发阶段

该阶段为此次信息系统灾难备份体系建设的核心阶段,主要在同城灾备中心的基础上,配合灾难备份平台的建设,开发核心业务系统、ATM系统和支付系统的灾难恢复预案。

在灾难恢复预案的开发阶段,对信息系统稳定运行可能面临的外部环境、基础设施、系统本身等方面的事件进行了分类、分级,对于一般事件按照日常运维管理流程进行处理,对预计本地恢复时间不超过RTO的事件按照本地应急恢复预案的有关流程进行处理,对预计本地恢复时间超过RTO的事件按照灾难恢复预案进行处理。灾难恢复预案中对以下几个方面的内容进行了明确:

 灾难恢复的组织架构及职责;

 典型事件分类分级;

 灾难预警处理流程;

 损害评估;

 事件通报流程;

 灾难决策及宣告;

 灾难恢复处理流程;

 各系统灾难切换操作规程;

 灾后重建;

 灾难回退处理;

 人员联系清单、关键恢复资源等相关信息资料。

(6)灾备运维管理体系设计阶段

灾备运维管理体系设计阶段主要是对同城灾备中心的运维管理流程和灾难恢复预案的维护、演练等相关流程进行明确。

同城灾备中心运维管理流程主要包括灾备中心事件管理、问题管理、配置管理、变更管理等关键的流程进行梳理,实现与该金融机构生产中心相应管理流程的协调一致;同时对基础设施、数据备份系统、备用数据处理系统和备用网络系统的维护内容及操作规程进行了明确,提高同城灾备中心运行维护工作的效率。
灾难恢复预案的维护、演练管理制度、流程与该金融机构的组织结构相吻合,对灾难恢复预案的维护职责、维护流程、维护内容,演练方式、演练频率、演练组织、演练评估等内容进行了明确。

(7)灾难备份系统的演练阶段

在灾难恢复预案开发完成之后,对其进行了首次演练,以检验灾难备份系统和灾难恢复预案的可用性,同时锻炼灾难恢复人员的应急处理能力,使其熟悉相关流程及操作步骤。灾难恢复预案的演练分为演练准备、演练实施、演练评估三个阶段,演练准备阶段是对演练目的、演练场景及参演人员进行明确,制定演练计划;演练实施过程中各参演人员按照灾难恢复预案进行恢复操作,演练管理人员对参演人员的行为表现进行记录,以作为演练评估的依据;演练评估阶段对演练目标的实现、灾难恢复预案的可用性、生产系统和灾备系统存在的问题、参演人员的应急能力等进行了科学的评估,并根据演练评估的结果对灾难恢复预案进行了修改完善。

4.实施结果

通过该项目的实施,该金融机构基本建立了一套行之有效的业务持续性管理体系,实现了核心业务系统、ATM系统和支付系统建筑物级的应用备份,保证了相关业务的持续性稳定运行;灾备运维管理体系的建立从制度上为实现该金融机构的业务持续性奠定了基础,经过一年多的运行,已经与原有生产系统的运维管理体系实现了融合;通过进行灾难恢复演练,锻炼了该金融机构的应急管理和技术队伍,为该金融机构有效处置突发事件积累了经验。

业务持续性管理体系的建立,提高了该金融机构的全面风险管理能力,尤其是为操作风险管控体系的完善提供了支撑,对该金融机构核心竞争力的提升也产生了促进作用。

该项目的主要交付文档包括:

 《关键业务系统风险分析报告》;

 《关键业务系统业务影响分析报告》;

 《业务持续性建设中长期规划》;

 《核心业务系统、ATM系统、支付系统灾难恢复预案》;

 《同城灾备中心运维管理流程及维护手册》;

 《灾难恢复预案维护及演练管理制度》。

5.经验总结

随着金融全球化趋势的进一步加强、国际国内相关机构监管力度逐渐加大以及数据大集中工程的结束,建立健全业务持续性管理体系已经成为国内各金融机构的当务之急。业务持续性管理体系和信息系统灾难备份体系的建设不仅仅是信息技术部门的工作,需要其加强对信息系统的管理,更重要的是业务部门需要提高意识,认识到信息系统、业务流程、管理流程对其业务持续运行的关键支撑作用。在业务持续性管理或信息系统灾难备份体系建设项目中,应求得高层领导的支持,由业务部门、技术部门和咨询机构联合组成项目组,一方面提高项目实施的效率,另一方面也将从根本上保证业务持续性管理体系的有效落实。

 

京ICP备06004481号   Copyright 2002 - 2006 ITGov.org.cn, All Rights Reserved