当前位置:首页>>新闻 > 观点 > >保险公司看业务连续性【中国太平洋保险(集团)股份有限公司 马波勇】

保险公司看业务连续性【中国太平洋保险(集团)股份有限公司 马波勇】


文 \ 中国太平洋保险(集团)股份有限公司  马波勇 戴锡平 

 

业务连续性,是关乎企业生死存亡的大事。据美国明尼苏达大学研究发现:如果企业在发生灾难后两星期内无法恢复业务系统,则其中75% 的企业会发生业务停顿,43% 的企业永远无法开业。Gartner 也有类似的分析报告:40% 的企业经历大灾难后再也不能恢复运作,33% 的企业经历大灾难后2 年内倒闭。

 

保险是社会的稳定器和经济的助力器。“十二五”期间,保险业为全社会提供保险赔款与给付3.1 万亿元。2016 年前三季度,保险业为社会提供风险保障2276 万亿元,大病保险覆盖人口达9.66 亿,截止2016 年11 月,保险业赔付和给付支出9450 亿元。保险行业已经成为国家金融安全的重要支撑力量和实体经济发展的坚强保障力量。保险企业是否能够正常运转,不仅事关企业本身,而且会影响经济社会的安全稳定。因此,无论是监管机构还是企业本身,都非常重视业务连续性管理。

 

随着信息技术的深入广泛应用,信息系统及其基础设施的安全生产,已经成为影响企业业务连续性的重要因素。保监会为此专门出台了《保险公司信息化工作管理指引》、《保险公司信息系统安全管理指引》、《保险业信息系统灾难恢复管理指引》等,对保险业信息系统安全生产提出了明确要求。

 

为确保业务连续性,对信息系统而言,就是要解决数据安全、系统高可用和灾难恢复。

 

建立有效的治理架构

明确灾难恢复策略

 

  

灾难恢复治理架构包含决策机构和执行机构。灾难恢复决策机构主要负责按照监管的要求,结合业务需求和财务承受能力,确定灾难恢复管理目标,审议灾难恢复策略和灾难恢复投入。为保证信息系统灾难恢复管理符合组织的经营目标,并为信息系统灾难恢复管理的资源投入提供有力保障,灾难恢复决策机构的主要成员应是本组织经营决策机构成员。灾难恢复执行机构主要职责是落实灾难恢复决策机构的决议,制定和定期回顾灾难恢复策略,编制、演练和优化应急预案。

 

灾难恢复策略是灾难恢复体系建设的纲领性文件,是为了达到灾难恢复的目标而采取的基本方法和措施。灾难恢复策略主要包括:灾难恢复建设模式与建设计划、信息系统分类标准及其恢复目标、灾难恢复资源要求和灾备实施策略。

 

灾难恢复建设模式要回答本组织的灾备中心是自建还是租赁,是同城、异地或者两地三中心甚至多中心的问题。建设计划一般是先租赁后自建,先同城后异地。目前大型银行和保险公司均采取自建两地三中心或多中心模式。

 

信息系统分类标准及恢复目标通过风险分析和业务影响分析确定。业务影响分析包括定性和定量分析。定性分析用于确定系统的业务属性和关联关系,定量分析用于确定信息系统服务中断影响、数据丢失影响、灾备资源及安全等级保护要求。通过定性和定量的分析,确定信息系统的恢复优先级、恢复目标(RTO、RPO)和资源配比(生产比灾备)等。

 

回顾灾难恢复策略就是定期开展风险分析和业务影响分析,一般每年一次,如果内外部环境有重大变化则应随时进行,以便不断调整与优化信息系统灾难恢复策略。

 

制订完善的应急预案

有序应对灾难

 

  

应急预案是有序应对灾难的重要保障,其至少要包括应急响应组织体系、应急响应工作流程、事件分类分级标准、应急通讯录、应急保障措施、相关的子预案等内容。

 

明确应急响应组织体系是为了保障在灾难事件发生时确保有合适的人员投入到应急响应的每一个岗位。应急响应可分为应急指挥和应急操作两部分职能,由应急指挥小组和应急处置团队分别承担。

 

应急指挥小组应以组织的CEO 或总裁为总指挥、以CIO 或分管信息技术的副总裁为副总指挥,应急实务中总指挥与副总指挥是互备关系。应急指挥小组成员应包括业务、信息技术、品牌建设、行政等管理领域的一把手,并配备各方面的技术专家提供决策支持。各关键岗位均安排备角,既可基本避免关键岗位出现缺位,又可在应急响应期间以最快的速度做出相对全面、准确的判断并下达恰当的指令,还能在日常工作中更快速、更有效地将信息系统灾难恢复的管理要求在各方面落地。

 

应急处置团队应包括应急协调、技术恢复、业务验证、媒体法务、后勤保障五方面人员,规模较大的组织可组成相对独立的五个小组。应急协调小组负责组织、协调、内部沟通事宜以确保应急处置过程信息通畅、环环相扣、有序推进,第一时间向监管部门汇报信息,并事后按要求提交正式报告。技术恢复小组负责各项技术处置工作以尽快完成灾后技术恢复,业务验证小组负责对技术恢复的结果进行有效性检查以确认业务是否已得到真实、准确的恢复。媒体法务小组负责应急期间的舆论媒体和公众的沟通并处理相关法律事宜,后勤保障小组负责场地、物资、餐饮等方面事项以解决其他小组的后顾之忧。

 

应急响应工作流程主要包括预案启动、应急决策、事件处置、信息报告、应急结束等环节,描述各环节的参与角色、执行动作、输入输出等信息,确保各方了解自己所处的位置、职责及干系方,有效协同工作。
 

事件分类分级标准是进行应急决策和事件处置的重要依据,通常将事件分为一般事件和重大事件两类。重大事件再分出三至四个等级,一级为最严重事件,二级为严重事件,三级、四级次之,分级标准通常用影响范围和影响程度两个维度来描述。

 

应急通讯录需要记录与预案有关的内外部所有人员的姓名、所属职能组、手机、固定电话、第三号码等信息,手机优先呼叫。应急通讯录需定期更新确认,避免失效。基于各种即时通讯工具的沟通群是应急通讯录的有益补充。

 

应急保障措施需明确应急期间需要提供的场地、物资、通讯工具、餐饮、经费、交通工具、辅助人员。

 

相关的子预案是应急预案的重要组成,比如电力故障需要依据电力子预案恢复、网络故障需要依据网络子预案恢复、某应用系统故障需要依据该应用系统子预案恢复。而一级事件和二级事件,可能就要依据《灾难恢复子预案》、通过启用灾备中心恢复。

 

打造高效的应急团队

提升灾难恢复能力

 

  

信息系统灾难恢复能力的提升,除了软硬件投入保障外,还需要保障应急指挥小组和应急处置团队做到“召之即来、来即能战、战即能胜”。根据我们的经验,实战化应急演练不但能够真实地检验灾备中心的基础设施、应用系统及数据的有效性,同时也能最高效地培训应急指挥小组、锻炼应急处置团队。

 

考虑到应急指挥小组与应急处置团队职责虽然不同,但实际灾难发生时这两个团队需要相互配合、协调,所以实战化信息系统灾难恢复应急演练可分为两大阶段:先组织应急指挥小组开展应急决策演练,演练形成决策意见后,再根据决策意见开展灾难恢复演练。

 

在应急决策演练阶段,假设发生某一灾难事件,由灾难现场负责人进行事件报告并依次上升至应急总指挥/ 副总指挥,应急总指挥/ 副总指挥下达指令,由应急协调小组发起应急呼叫,召集应急指挥小组成员通过电话会议根据既定的《应急工作手册》进行应急决策,做出启动灾难恢复子预案的决议,第一阶段演练结束。

 

在灾难恢复演练阶段,应急协调小组根据上述决策意见,启动灾难恢复子预案,将相关指令下发至技术恢复、业务验证、媒体法务、后勤保障等各小组,各小组成员根据指令执行应急恢复操作或其他辅助活动,并将执行结果反馈至指令下达人员,直到所有任务流转执行完毕,演练结果向应急指挥小组汇报后,第二阶段演练结束。

 

在应急处置团队人数太多时,为了确保应急演练能全覆盖应急处置团队的所有成员,应安排开展多次演练,主备角色可以轮换,人员可以分批参与。

 

通过应急演练,可以对信息系统灾难恢复子预案的流程、人员、场地、技术、业务等方面进行详细验证,及时发现问题并总结优化,培训应急指挥小组、锻炼应急处置团队。

 

除完整的灾难恢复演练外,在日常工作中还可以针对某些局部事件经常性地开展子预案应急演练。假设某一局部事件已经发生,在没有事先通知的情况下向子预案相关团队发起紧急呼叫,以检验呼叫应答的及时性、团队到达某一指定地点的时效、应急工作手册的有效性、应急处置专业小组成员之间的可替代性等指标,并总结经验不断优化,培养应急处置团队快速响应习惯,提升整体应急处置能力。

梳理标准化应急手册

规范恢复过程

 

  

根据经验,一旦灾难发生,其处置过程必然需要处理各种各样的突发情况,需要对操作行为做严格控制以提高效率,避免引发次生事故。为解决此问题,应推动开展应急手册标准化工作。

 

对于应急指挥小组成员,可为每位成员定制一份专用的应急工作手册,手册只要包括应急指挥小组通讯录和本人应急处置动作要点两部分即可,篇幅不超过一张A4 纸,携带方便、使用简洁,能收到最好的效果。

 

对于应急处置团队,重点是提高应急处置过程的标准化程度、降低应急处置过程对个人能力的要求以及对特定人员的依赖。可以推动各应急处置专业小组梳理本小组的应急处置动作,明确每个动作的动作名称、执行组、干系人、操作手册、依赖条件等信息,再统一梳理应急处置动作的先后关系(含并行关系),最终形成标准化的灾难恢复应急任务书,由应急协调小组统一管理与维护。

 

借助标准化的应急手册,既能保障应急处置过程的有序与顺畅,也能很大程度上降低对某些特定人员的依赖,进一步提升应急处置团队的整体能力。

 

借助技术手段

构建应急响应生态圈

 

 

应急处置追求的是快速、准确,面对大量的系统、设备和处置动作,依靠手工操作和管理显然无法很好地满足要求,因此,在应急处置过程中应尽量采用自动化技术。比如:在应急呼叫方面,可通过信息系统对接短信平台或其他即时通讯工具,实现对特定团队的一键呼叫;在操作指令下达方面,可通过信息系统实现应急任务的自动分发与流转;在应急操作方面,可运用自动化脚本一键启动数据库并自动检查数据库启动状态、启动应用系统并自动完成技术验证等等,以提高应急处置操作的效率。

 

除此之外,还可将应急管理每个环节融入日常工作,比如:将应急通讯录的维护纳入日常运维计划,到时自动产生待办任务;在日常事件处置中调用标准化应急手册,在实务中检验和完善;日常开展无预警呼叫演练、桌面推演,让应急团队养成习惯,确保可以随叫随到,快速投入应急响应。

 

借助自动化技术和强化训练,可以逐步形成良好的应急响应生态圈,最大限度地满足应急处置的需要。

结语

 

  

业务连续性管理的核心是保障企业业务持续运行,因此信息系统灾难恢复只是其中重要的一环,其他方面如系统可用性管理、事件管理、变更管理,以及业务作业流程、人员岗位、供应链等配套管理都是业务连续性管理的重要组成。企业需要结合自身实际情况、风险承受能力和财力,综合权衡,构建满足自身需要的应急响应生态系统,并加强演练,持续改进。

 
  分享到:
360网站安全检测平台