查看原文
其他

祝贺!国信证券乾坤集中运营平台技术运营团队荣获“证券行业运维领域风云团队”奖项

GOITI 高效运维 2023-01-27

2022年10月28日,“GOITI 2022 IT技术领导力年度颁奖盛典”在上海隆重举行。本次年度盛典已经是第6届了,依然由高效运维社区(GreatOPS)和 DevOps 时代社区联合主办,相关奖项在千人技术峰会——GOPS 全球运维大会 · 上海站的主会场隆重颁发,近百家单位出席了本次 IT 行业的盛大活动。

本次活动旨在通过对IT行业从业者、产品、企业、服务商的横向评选及表彰,鼓励IT行业企业及IT人才持续进行技术创新和探索,引领IT行业技术发展。

颁奖盛典上,GOITI 2022 IT技术领导力年度颁奖盛典评选活动结果隆重公布。其中,国信证券股份有限公司“国信证券乾坤集中运营平台技术运营团队”荣获证券行业运维领域风云团队奖。


1

团队简介及其项目的建设背景及意义

在金融科技浪潮下,微服务、云计算、大数据与人工智能等新技术不断涌现,国信证券乾坤集中运营平台技术运营团队拥抱创新,引进新技术,以客户为中心,追求极致的服务体验,提供全方位的运行服务保障。

经过团队成员对乾坤集中运营平台不断地完善及优化,沿着“规范化-标准化-自动化-平台化-数字化”的发展路线,逐步提升技术运营能力和服务质量,平台数智化能力已达到业界领先水平,助力公司的业务发展和技术变革,为业务发展更好地保驾护航,并为行业同类服务提供可借鉴的良好实践。

国信证券乾坤运营平台技术运营团队由业务服务、产品经理、架构师、软件研发、质量测试及运维SRE稳定性工程师等成员组成,负责乾坤运营平台的产品设计、研发交付以及运行维护与运营。

团队以打造稳定、高效、安全、具备一流用户体验的证券业务办理和审核服务为使命;以成为行业领先的技术运营团队为愿景;以学习、分享、协作、创新、持续改进为团队文化和价值观,长期致力于打造学习成长型和持续改进型团队。团队成员通力合作,不断探索及积累证券行业数字化转型过程中技术运营的实践经验,在各自领域内深耕专业能力的基础上,持续提升产品服务质量,为客户提供7*24全天候、无间断优质的服务,平台可用性长期保持在99.95%以上。

乾坤集中运营平台是国信证券自主研发的集受理平台、审核平台及管理平台三大平台于一体的数字化运营平台,为投资者提供无间断的业务受理服务,包括非现场开户、智能终端(VTM)开户等多渠道多终端开户服务、各类业务权限开通及业务资料变更服务等。创新型微服务框架下的非现场开户效率同比单体架构提升23%以上,非现场开户数量占比不断创出新高,为公司经纪业务展业奠定基石。


2

团队项目的建设方案

国信证券的乾坤集中运营平台是以提升系统运行效率、降低系统运维难度、健壮系统可用性以及高效迭代业务需求、提升用户体验度为总体建设目标。将乾坤集中运营平台按照业务模块进行微服务拆分后支持“两地三中心”部署,多地同时提供业务服务,实现业务服务访问自动、无感动态切换。系统整体建设方案图如下:

图1 乾坤集中运营平台系统建设整体方案图

在系统架构层面,针对乾坤集中运营系统基础KJDP框架进行升级,支持微服务体系接入,具备服务治理能力,同时引入配置中心Zebra对系统后台配置进行统一管理。以非现场开户业务为核心微服务业务,结合行业监管要求、ISO20000标准和DevOps技术运营规范等,从“监、管、控、析、营”五个方面,打造完备的运维技术管理体系,从而保障非现场开户业务服务可用性长期保持在99.95%以上。

在系统运行保障层面,乾坤集中运营平台全面实现容器化部署,可将服务内所有Pod信息定时上报磐石CMDB管理平台,保障数据源唯一、真实。并以CMDB配置管理中心为数据一致性的基础,围绕系统监控管理、事件与变更管理、连续性管理、高可用管理、容量与成本管理、用户体验管理等技术运营体系持续建设与完善运维工具与平台体系等系统服务保障工作。乾坤集中运营平台技术运营体系图如下:

图2 国信证券乾坤集中运营平台技术运营体系图

在监控管理层面,乾坤集中运营平台对接了公司级统一监控平台(包含Prometheus,SkyWalking、扁鹊统一监控系统等),进行业务微服务性能指标监控、业务链路追踪和业务指标监控,同时对接大数据平台进行日志采集、解析、分析和场景监控。所有监控产生的告警统一上报至观微事件平台,该平台可支持根据系统、组件及告警内容进行告警收敛,按照告警级别可进行告警转事件、转问题等闭环管理,同时可将系统常见问题转为知识点,实现知识的创建、收藏、分享等功能,便于同类告警的快速定位、解决,进一步提升团队运维能力。

在连续性管理层面,通过自主研发方式建设了倚天数据库管理平台,为数据服务提供安全保障,支持数据库集群切换、Redis集群动态扩容等弹性操作平台化管理。乾坤集中运营平台已经实现了数据库访问隔离、读写分离以及多事务回滚等柔性能力,同时采用两地三中心部署模式,多中心同时提供业务服务,营业部、审核中心以及客户接入终端可灵活按照地域接入不同服务中心,服务异常后可自动、无感动态切换至正常服务数据中心,为用户体验提供更高级别保障。

在容量管理层面,依托昆仑运维大数据平台进行系统基础容量、业务容量以及网络容量全方位纳管,通过引入深海性能测试平台,将生产环境业务流量在预发布环境进行回放,从而实现对业务服务全链路压测,并将各容量指标阈值动态更新至大数据容量管理平台。以自主研发方式建设并打造成本管理平台,对系统成本实现多维度、平台化管理,通过AIOps先知智能运维平台对基础性能指标和业务指标进行容量指标预测,实现成本管理与容量管理的动态关联。

在服务保障层面,乾坤集中运营平台已经实现全业务服务容器化部署,全部服务由蜂鸟容器平台进行平台化管理,支持自定义设置弹性伸缩策略,便于根据业务服务级别定制个性化弹性策略。业务服务根据证券行业经纪业务特性,同时支持了业务级别和接口级别的熔断、限流策略,实现定制化专属服务治理。打通凤凰预案平台与蜂鸟容器平台之间的链路,实现告警关联预案,提升告警治愈或自愈能力,通过混沌实验不断丰富、完善各业务场景预案,进一步提升系统抗风险能力和自愈能力。

在用户体验层面,乾坤集中运营平台选择用户访问低谷时间段作为变更窗口,将所有可能影响业务开展的发布变更左移,变更内容以及发布风险在变更执行前会同专家组进行线下评审,进一步确保系统可用性。对于系统出现的任何问题均可以在企业微信群内进行反馈,有一线人员实时跟踪、有专家组(开发人员、测试人员、SRE等)实时答复,团队共同保障业务顺利开展,不断优化用户体验。


3

团队项目建设过程中遇到的难点及问题

该项目在建设过程中,遇到了两大难题,其一是证券行业内集中运营平台均采用单体架构,尚未有容器化微服务架构的集中运营平台,可借鉴的案例几乎为零,团队面临着巨大风险与压力。我们团队上下一心,克服重重困难,在蜂鸟云容器平台技术支撑下,结合国信证券实际业务需求情况,打通容器内外网络限制,定时上报业务服务数据至磐石CMDB管理平台,打造了适合业务发展、面向用户群体的乾坤集中运营平台,成为行业内首批经纪业务服务采用容器化微服务架构的证券公司。另一个难题是在单体架构到微服务架构的过渡期内,如何平衡系统的稳定性与切换周期。在最初的系统建设方案中,原计划是在完成微服务建设后再进行单体架构整体迁移,其优点是切换时间短,便于快速上线,但其切换风险不可控,无法保障系统切换后的平稳运行。在运维SRE团队多次线下技术交流后,确定了双架构同时运行,三数据中心分批次切换的整体方案,同时也确保了双架构并行期间业务的稳定开展。


4

团队项目的系统亮点

在智能领域不断深耕,积极探索智能运维场景,持续为运维人员赋能。我们团队通过 AIOps 先知智能运维平台,充分挖掘其纵览历史、预测未来的潜力,预测系统风险点,智能输出有“远见”的应对策略,助力SRE团队高效保障系统稳定性。

乾坤集中运营平台是从单体架构转型至微服务架构的全面容器化的全新平台,借助 AIOps 先知智能运维平台对基础性能指标和业务指标进行了预测,将系统容量风险左移,预判系统当前弹性策略的合理性,并提前做出应对措施。基于 AIOps 技术,再结合历史开户数据、节假日以及各类开户活动等影响因子,我们团队实现了对未来乾坤集中运营平台非现场开户新增量的预测,可根据此预测数据动态、智能制定弹性伸缩策略,以从容应对火热行情。如下图展示了AIOps 先知智能运维平台预测的非现场开户新增量:

图3 乾坤集中运营平台非现场开户新增量预测 采集日期为20221026

引入稳定性工程平台对系统进行混沌工程实验,以发现系统薄弱点提高系统健壮性。自主研发了深海性能测试平台,实现了系统的全链路压测。通过引入稳定性工程平台对系统进行混沌工程实验,提前发现系统薄弱点从而提高系统健壮性。

乾坤集中运营平台借助深海性能测试平台,进行常态化生产流量回放式全链路压测,实现了动态更新容量指标阈值。并在生产环境业务服务中引入了混沌工程,通过预案处置将预案平台、蜂鸟云容器平台、统一自动化平台及微步持续交付平台之间打通,全面实现告警关联预案,预案自动触发对应自动化平台上的告警恢复策略,进一步提升故障处置及恢复效率。

通过 AIOps 对业务和基础设施容量预测及分析,建设了较为完备的系统容量与成本管理系统。自主研发了领先行业水平的成本管理平台,实现对乾坤集中运营平台的多维度成本分析,达到与系统容量动态关联的能力,为业内动态管理容量与成本提供成熟实践。

通过自主研发成本管理平台,以此打破传统容量与成本的管理壁垒,从而实现系统容量成本的平台化管理。成本管理平台从数据中心维度、系统组件维度、计算、网络资源维度等多个维度,综合考量实际情况后制定了完备的成本模型,对乾坤集中运营平台进行全方位的成本分析,依据分析结果平台自动产出适合当前系统组件的弹性伸缩操作建议,同时平台支持直接调用蜂鸟云容器平台,以快速实现成本与容量动态管理。如下图为乾坤集中运营平台成本管理系统内成本分析界面,按日统计分析,支持预测未来系统容量使用情况,具体如下:

图4 乾坤集中运营平台成本管理系统展示图

打造了业界领先的7*24全天候的非现场开户服务模式,为客户提供极致的开户体验。乾坤技术运营团队为客户提供了7*24全天候、无间断的非现场开户服务,在敏捷迭代的同时,平台可用性长期保持在99.95%以上,率先实现了周末交易所测试、全网灾备演练期、生产环境压测期间的不间断开户,解决了行业共性问题,满足了客户便捷办理开户业务的需求,为客户提供优质的使用体验,极大提升了客户满意度。


5

团队的实践成效、成果效益及荣誉证明

近年来,国信证券持续加大信息技术投入,技术与管理并重,建设了完善的管理保障体系和技术保障体系,通过持续改进的数字化运营手段,实现了运行管理的“全流程、全过程、全覆盖”管控,确保信息系统的可控、能控和在控。

通过搭建应用系统、数据库与缓存的高可用架构,持续建设与完善运维工具与平台体系,保障乾坤集中运营平台7*24小时的可用性与连续性,为用户提供了良好的服务体验。为应对证券业市场行业波动性的特点,国信证券打造出混合云资源池并从业务角度出发对系统进行容量规划。在保证公司业务的基础上,团队通过深海性能测试平台、容量系统、成本平台对系统容量进行全方位管理,可从容应对业务洪峰流量,并有效控制乾坤集中运营平台在IT资源上的成本。基于技术与管理持续提升与完善,国信证券的客户服务平台功能不断完善,技术运营能力持续提升并在行业内达到领先水平,是公司数字化转型发展的强劲动力。

国信证券参与中国信通院标准评估详情如下:

重磅!国信证券通过 DevOps 技术运营标准评估,相关项目能力达到先进水平

燃!国信证券通过 DevOps 持续交付标准 3 级评估,相关项目能力达到国内领先水平!

燃!国信证券通过 DevOps 标准安全及风险管理评估,相关项目能力达到先进水平!

【盛典现场】

更多关于 2022 IT技术领导力颁奖盛典,请参见:

荣耀时刻!2022年IT技术领导力颁奖盛典圆满举行

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存