当前位置:首页>>新闻 > 观点 > >坚持自主可控 创一流交易安全运行记录【深圳证券交易所副总工程师 喻华丽】

坚持自主可控 创一流交易安全运行记录【深圳证券交易所副总工程师 喻华丽】


文 \ 深圳证券交易所副总工程师 喻华丽


股市交易异常活跃,成交量快速增长,换手率越来越高……业务创新也层出不穷,交易系统的容量、速度和业务扩展性等都面临严峻挑战。深圳证券交易所虽然对原有交易系统持续进行了升级优化,但已无法继续支持未来十年的交易业务发展。因此,深交所于2011 年启动了第五代交易系统建设项目。为满足业务连续性需求,立项之时就将建立一套高可用、高性能、低时延、易扩展、易操作的集中交易平台作为最重要的技术目标。

 

第五代交易系统的建设坚持“科学、安全、高效、实用”的指导原则以及自主研发的技术路线,采取了先规划后实施、稳步推进的建设策略。整个项目分二期建设,第一期为2011 年11月正式启动至2013 年5 月,实现了第五代交易系统核心架构,并对关键技术进行了验证;2013 年6 月起开展二期系统建设,项目进入全面研发实施阶段。系统在2016 年5 月9 日正式切换试运行,6 月6 日开始正式上线运行。目前系统已持续平稳运行半年多,沿续了自第四代交易系统以来近15 年的安全运行记录。第五代交易系统相较原有系统更安全、更高效、更公平、更便捷、更灵活、更经济,其成功上线将推动我国证券交易进入全新的“高铁”时代。系统上线后,深交所交易业务持续服务能力得到进一步增强,主要体现在五个方面:高可用架构设计,持续保障交易业务平稳运行;坚持自主可控,提升应急响应能力;测试全面充分,降低运行风险;两地三中心布局,完备灾备系统建设;运维管理规范化,运维能力专业化。

 

 

高可用架构设计,持续保障交易业务平稳运行

 

不同于其他系统,证券交易系统在高可用方面有着极严苛的要求:数据零丢失;数据不重复、不乱序;故障快速恢复;故障重演。第四代交易系统采用了容错小型机提供交易服务,除通过容错硬件应对单点硬件故障外,主要通过应用层的数据同步策略、切换重演等功能来实现灾备场景下的数据不丢失、不重复、不乱序,高可用实现代价大且与业务逻辑耦合高,维护工作量较大。此外,基于封闭平台的第四代交易系统的容量、吞吐、时延、扩展性等已无法满足需求,亟待研究新的架构尤其是新的高可用解决方案,以支撑未来十年的交易业务发展。

 

经充分调研和深入探索,结合国际主流证券交易所的最佳实践以及原有的交易系统研发积累,尤其是针对中国证券市场众多的独特需求,深交所设计了基于高速消息总线的第五代交易系统,实现了基于开放平台分布式架构的高可用架构。该架构基于可靠消息传输、一致性策略、数据持久化、快速故障切换等关键技术,保证交易系统在运行过程中数据零丢失、数据不重不乱、故障可快速切换、故障可重演,且高可用实现与业务应用组件隔离,从而保证交易业务可以持续平稳进行。

 

图1 第五代交易系统架构图

 

如图1 所示,高速消息总线是整个交易系统的枢纽。应用组件通过消息总线收发消息,消息总线实现消息可靠传输、流控、打包等基本功能以及数据持久化、数据同步、数据补传、主备切换、故障恢复和Leader 选举等高可用功能。高可用逻辑与业务逻辑的隔离,极大地增强了第五代交易系统的高可用和易扩展特性。

 

基于消息总线的高可用特性,第五代交易系统采取了双中心“2+1”(主中心一主一备,同城灾备中心一备)的高可用部署策略。由一般软硬件错误导致的单点故障、不同层的多点故障可在秒级自动切换到备份服务器,同城灾备切换时间控制在3 分钟以内,比原有系统时间缩短了80% 以上。同时,提供“延迟加入”功能,从“2+1”退化到“1+1”或“1+0”时,可在线添加备份组件,恢复高可用性。通过以上高可用设计,交易系统在极端情况下也能够保证交易业务持续进行,并且保证数据准确可靠,不重不丢不乱,极大地提高了交易系统的持续服务能力。

 

 

坚持自主可控,提升应急响应能力

 

由于证券交易的稳定性、安全性极重要,如果在持续运行过程中出现故障,要能够及时响应解决,并尽快恢复交易正常状态,否则可能给市场参与者造成重大损失;同时,当新业务需要紧急实施时,要能够及时投入并保质保量按期产出。因此,深交所始终坚持自主研发,牢固掌握核心技术,打造一流开发和运维团队,有力保障生产和运维平稳安全进行。同时,作为国家重要金融系统,掌握核心技术、提升应急响应能力也是基本要求。

 

深交所在第五代交易系统建设过程中全面自主研发,共计产出8800 份文档、280 万行代码,攻克了很多难题,掌握了基于开放平台开发交易系统的众多核心技术。例如,应用开源技术和低时延技术,实现了高可用消息总线;基于高速无锁队列的多级流水线处理、应用级委托时延实时度量、基于模板的协议转换引擎、首笔委托同时到达等关键技术,实现了基于开放平台、高速消息总线的高可用、易扩展的分布式大规模并行处理架构;部署架构上,通信服务层采用同城双中心“双活”设计,核心业务层采用双中心“2+1”高可用设计,在整体可用性上有了进一步的提升。

 

通过自主研发并全面掌握核心技术,做到了系统完全自主可控,提升了系统应急处理能力,提高了创新业务支持能力,培养了一批业务骨干、技术专家,进一步保障了交易系统持续提供服务的能力。

 

 

测试全面充分,降低运行风险

 

第五代交易系统的研发过程,遵循深交所的工程管理过程——SEP 体系要求,符合CMMI3 级标准。第五代交易系统建设项目的测试级别包括单元测试、组件测试、子系统测试、系统测试、系统集成测试以及验收测试;测试类型包括功能测试、可用性测试、性能测试、联调测试、全网测试等;测试方法包括静态测试和动态测试,其中,静态测试贯穿于第五代交易系统的建设过程,有效地保证了尽早发现缺陷、修复缺陷,极大地降低了项目成本。为提升测试效率、扩大测试覆盖,第五代交易系统建设之初,测试团队自主研发了基于关键字驱动技术的自动化测试平台,该平台持续应用于第五代交易系统的整个建设过程,有效地支撑了多个级别的功能测试。

 

可用性测试方面,为了验证第五代交易系统是否满足高可用的设计目标,可用性的测试场景覆盖了单点故障、多点故障、整层软件故障、数据中心故障。故障点包括应用软件、硬件、操作系统和网络。测试内容如表1 所示。

 表1 可用性测试内容

 

据统计,第五代交易系统进行了66000个测试用例的内部测试,123 个交易日在线并行测试、284 个交易日比对测试,并组织市场参与者进行了143 个交易日联网测试、12 次内部测试、13 次全网测试。系统的质量保证计划、严格的质量控制、全面的测试级别、综合的测试类型、全面的测试方法和先进的测试方式保障了第五代交易系统的交付质量和交付效率,保证了第五代交易系统上线后平稳运行,从而对证券交易业务提供无间断的服务。

 

 

两地三中心布局,完备灾备系统建设

 

目前,深交所已为交易系统建设了比较完备的同城灾备系统。根据证监会关于市场核心机构重要信息系统的备份能力要求,深交所计划逐步在郑州完成相关实时信息系统和非实时信息系统的异地灾备系统建设,达到在重大灾难发生时可以T+3 方式切换的异地备份能力。

 

按照规划,两地三中心将以福田中心为主数据中心,承载主交易系统、用户接入点;滨海中心为同城异地灾备数据中心,承载备交易系统、用户接入点;郑州中心为异地灾备数据中心,实现交易等重要业务数据异地备份,并能在重大灾难发生时以T+3 方式切换成为主用数据中心的功能。

 

 

运维管理规范化,运维能力专业化

 

保证交易系统长期运行正常不出错,运维团队的管理规范和专业素养至关重要。第五代交易系统自投产试运行至今已9 个多月,上线运行平稳,市场参与者按计划逐步切换上线,保障了交易业务的顺利开展。从六年前项目启动,到如今掌握全新技术平台的运维能力,工程、测试及运维攻坚克难,确保了安全运行记录的延续。

 

1. 一体化的运维管理系统。第五代交易系统坚持自主研发运维管理系统,全面提升系统运维的监控能力、易操作性和便利性。运维管理系统主要采用了大规模集群集中监控技术,自动化、智能化故障处理机制,实时数据流可视化技术等核心技术。实现了一体化的运维管理系统,保证了每个交易日运维操作的规范性、正确性和条理性,为业务连续正常服务夯实了基础。

 

2. 周密的测试计划。为确保新系统上线平稳,运维团队协同测试团队进行了在线并行测试、比对测试,并组织市场参与者进行了联网测试、内部测试、全网测试、应急演练测试。通过全方位多维度的测试,既验证了系统架构,也培养了运维人员日常运行操作和应急处理能力,进一步加深了对系统的了解,提高了运维的专业性和能动性。

 

3. 规范的运行操作流程。清晰明确的操作流程,是系统运维的关键。为规范运行操作流程,主要做了几点改进:业务和IT 运维管理系统分离;验证日常运行和应急处理操作步骤,固化操作规范;定期组织异常场景演练。在日常运维过程中,各种场景运维人员都能从容应对,确保了运维团队整体运维水平稳步提升。

 

通过以上五方面的扎实推进,第五代交易系统得以成功落地并持续安全运行,牢固坚守了“交易不断、数据不乱”基本底线,持续平稳地服务于多层次资本市场。该系统将继续承担起多层次资本市场建设重担,快速支持创新业务,持续服务于广大证券市场参与者。

  分享到:
360网站安全检测平台