平台先行,引领创新:建行数据技术的探索与运用

Author
赵世辉
2021年 8月 31日

在Kyligence 主办的 Data & Cloud Summit  2021 行业峰会的「金融科技」分论坛上,建信金科大数据智能研发部总经理赵世辉向在场嘉宾介绍了建行数据技术的探索与应用,其中基于 Kyligence 的云化数据服务支撑了 60 多个应用,日均查询量超过 15 万笔。建行已经逐步“从技术的使用者变为技术的创造者”,以新技术驱动金融场景的创新。

-- 以下为赵世辉在大会的演讲实录 --

大数据技术的发展,带来了存储、计算成本的降低和用户体验的提升,推动了建行数字化的进程。

建行技术框架分成三层,技术底座、技术平台和技术组件。

01. 技术底座

为什么提出“技术底座”概念

应用越来越复杂,如一个大数据应用会涉及大数据、人工智能等多种技术,原来技术平台大多是按照技术领域建设,通过技术底座能够让各技术平台实现应用构建标准的统一。

技术底座的本质是更贴近应用的技术和服务

技术底座是云计算架构的北向迁移,本质上更贴近应用的技术服务。云计算是基础设施的范畴,提供计算、存储、网络资源,目的是资源共享,从而达到降低资源成本、提升使用效率的目的。技术底座是云计算架构下的 aPaaS 技术服务,实现技术快速落地以及规模化应用

技术底座的构成

技术底座以建行金融科技的战略“TOP+”中规划的 ABCDMIX 技术为核心,包括大数据、人工智能、区块链等,在这些技术之上支撑全行应用的开发和运行。

  • 对研发的支持,提供了面向研发的工具、框架、工艺以及形成的开发服务、测试服务;
  • 对生产的支持,面向生产运行提供的监控、处置以及运维服务、运营服务,支撑应用的稳定运行。

如果给技术底座一个定义,就是面向开发和运行人员,提供开发框架、技术引擎、程序接口、工具组件、规范工艺等一系列资源的集合

02. 技术平台

平台概况

建行一直以平台化的思路进行信息系统建设,平台化能够让各类技术更好的融合,更便捷的支撑应用建设。技术平台通过对技术能力封装和整合,降低技术应用门槛,为应用提供高效研发和稳定运行的支持。建行目前有七个技术类平台,内部称为“北斗七星”。随着技术的发展,还会有更多平台出现,重点介绍其中三个:

  • 大数据平台(天璇)提供数据采集、处理、分析和挖掘,数据管理和可视化分析等大数据能力;
  • 人工智能平台(天权)提供AI建模、标注、以及AI算力的供给;
  • 区块链平台(天枢)提供可信数据共享,信息存证及交易溯源等能力。

在平台的支撑下建行实现了许多应用,包含金融类应用,例如风控、营销;生态类应用,如住房租赁、养老扶贫;对外输出类应用,服务战略客户。

大数据云平台

大数据云平台从2018年开始建设,参考了互联网的大数据技术,并结合建行近20年的数据经验打造的金融级大数据平台。实现九大能力,包括数据采集、集成、存储计算、数据管理、数据开发、数据分析挖掘、数据服务、数据安全运营、资源调度,基本覆盖数据价值全链路的开发和运行。在这些能力之上,平台提供了三大类服务:

  • 第一类是资源服务,提供实时计算,批量计算、图计算等环境和资源,这些服务都是云化版本,应用可以快速搭建自己所需的基础环境;
  • 第二类服务是工具服务,提供了数据采集、加工、分析等工具,应用可以快速进行数据处理;
  • 第三类是数据服务,大数据平台提供了在线的元数据管理、数据目录、数据服务总线等功能,方便对外的数据服务。

03. 技术组件创新

  1. 存算分离的大数据引擎

存储计算分离技术不是新概念,但是用好不容易。建行大数据平台从建设之初就把存储计算分离作为重要的目标。技术上已经实现多套 MPP 集群将数据存放在统一的对象存储上。为了保证存储高效读写,在存储层增加了高速缓存,一方面实现底层不同存储的协议适配,另一方面实现缓存加速。

对于不同的数据计算引擎,无论用 Spark 做海量分析,还是用 MPP 进行数仓加工,或者用 HAWQ 作湖仓一体的处理,都能方便的获取底层数据,并实现数据的共享。为了让不同计算引擎间的数据能够相互识别,进行了引擎间的元数据打通,比如让 MPP 获取 Hive 表存放的位置和表结构,所有引擎实现数据互访,将不同引擎的优势形成合力。

 到目前为止,建行已经上线 10000+节点的云化 MPP 引擎,实现 60 多个集群共享同一个存储,共享的数据量10PB。这种云化的存算分离的 MPP 数据库在资源供给故障恢复节约存储计算资源方面,比传统的 GreenPlum 数据库有很大优势。

平台还提供了基于 MPP on Hadoop 技术的湖仓一体引擎,可以直接读取数据湖的 HDFS 文件,并以 MPP 的方式进行加工,更加符合原来开发人员的习惯。

2. 基于 Kyligence 的云化数据服务

Kyligence 在建行做了深度应用,包括:

第一,Kyligence 在大数据云平台做了云化适配,实现租户隔离、弹性伸缩、自动化部署等,并和其他技术组件,如数据管理、数据服务等进行了高效集成和对接。

第二,Kyligence 与 ClickHouse 实现了融合验证,提供统一的 OLAP 能力,在 Kyligence 高性能聚合分析能力之外,利用 Clickhouse 扩展了明细分析、Ad-Hoc 查询等场景的性能。

第三,Kyligence 的新特性,比如 AI 预计算、智能路由、读写分离等在建行做了深度验证,取得了不错的效果

目前 Kyligence 集群从申请到交付只需要两个小时,存储和访问节点数量有 900+,Cube 处理的数据量有 1PB固定查询能够实现亚秒级响应,BI 分析可以做到秒级返回,已经支持 60 多个应用,每天通过 Kylin 接入的查询量有 15 万笔

3. 双态数据研发模式

建行大数据平台支持稳态研发和敏态研发两种模式。稳态研发的开发和生产资源物理隔离,测试数据需要从生产同步,开发上线有严格的管控流程,适合传统的数据加工场景。敏态模式则更适合数据分析和 AI 建模类应用,在这种模式下,开发和生产资源在统一的基础设施上,通过云化技术划分为测试环境和生产环境(内部称为 Offline 和 Online)。

数据方面,在统一的数据基础上,提供了测试数据视图和生产数据视图;应用方面,提供了在线开发和部署,提升了数据研发效率。

敏态研发模式在金融业不仅是技术上的突破,更是研发流程上的创新,从这一点能看出建行在新技术、新模式的探索方面下了很大决心。目前敏态研发模式已经在全部分行和集团子公司上线推广。

4. 数据隐私计算

建行数据隐私组件采用“集中管理 + 分布计算”的架构,集中的管理节点负责数据管理、任务调度等核心功能,真正的计算在各计算节点上完成,这种架构兼顾了数据安全性和易用性。数据隐私计算使用了区块链技术对计算过程进行存证,能够还原整个计算过程,可以对其进行监管审计。


建行内外部都有很多数据隐私计算的场景应用。在集团内部,总行和建信基金进行联合建模来分析不同客群对营销活动的响应度。通过对每一类客群进行联合建模和单边建模,对比两者数据,联合建模下的 AUC 平均提升10.4%,KS 最高提升200%。最后,把模型评分前15%的客群做实际营销,各客群营销效果最高提升 30 多倍,定位准确率最高提升 50%,目标客群覆盖率达到 90%。在外部,建行和上海大数据中心合作,实现遗产关怀的场景,以及和银联、多个省政府合作,在小微信贷、裕农扶贫等方面开拓创新的场景。

5. 数据智能化技术

在数据智能化应用方面,建行在计算机视觉、自然语言处理、知识图谱、智能推荐等技术领域都有创新,比如和国家卫星资源中心以及各地的土地产权部门合作,通过卫星遥感图象做地权确认和农作物长势分析,在产量估算方面精确度能够达到 90%。再如智能审单领域,自研了 NLP 和 ICR 算法,把图象特征处理和文本特征处理放在一个模型中,使单据识别的准确度和速度都提升了一个台阶。通过智能化技术的运用,实现了更多数据价值的挖掘和业务创新。

6. 大数据技术信创国产化

建行在大数据技术信创国产化方面在加速推进,今年会完成大数据云平台的信创国产化工作。明年的重点是大数据工具的国产化,利用信创的契机,逐渐把国外软件替换为自主可控的软件。之后规划形成金融业领先的大数据信创能力,通过不断完善技术,加速金融业信创的进程。

7. 前沿技术的预研

为了持续保持技术领先,建行在很多前沿技术上提前布局,与众多企业、高校、研究机构进行产学研合作。比如成立高性能大数据处理实验室,研究基于 Hadoop 的事务性处理;成立量子金融实验室,在抗量子加密和金融定价方面进行研究,今年已经推出国内首批量子金融算法,包括“量子期权定价”与“量子风险价值计量”,是国内金融领域对量子计算加速能力的首次尝试;与清华大学成立“声纹+”联合技术创新中心,研究声纹识别技术在金融领域的应用。

总的来说,建行在数据技术领域的研究投入很大,特别是建信金科成立后,逐步“从技术的使用者变为技术的创造者”,目标是打造自主领先的金融科技,用新技术驱动金融场景的创新。同时希望以新技术带动研发流程、用数模式的升级,让数据价值更快释放。期待与更多的业界领先公司合作,共同创造多元化场景,共享金融科技的成果。


关于 Kyligence

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。

申请试用
关注我们