中电金信 :中国银行保险报:高质量数据集如何让AI更“聪明”?

2025中国国际金融展余温犹在,AI与金融科技的浪潮持续翻涌。一个核心共识愈发清晰:高质量数据是AI智能的基石,而安全治理是数据价值的守护者。 在这场关乎未来的竞赛中,金融业如何破局?《中国银行保险报》特邀上海银行数据管理与应用部总经理于浩瀚、中电金信研究院副院长、商业分析事业部总经理杜啸争,共探数据治理新路径。

2025中国国际金融展上,人工智能、科技金融等成为各方热议的话题。近几年,人工智能快速发展,离不开高质量数据建设。当下各行各业都在加强数据建设,金融行业也不例外。如何在安全合规的前提下做好数据安全治理,成为当下金融行业共同关注的话题。

技术发展推动数据安全治理

近几年,关于数据安全和数据要素的政策频出,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。今年发布的《高质量数据集建设指南(征求意见稿)》目标是建设高质量数据集,让人工智能更“聪明”。

工业和信息化部等十六部门发布关于促进数据安全产业发展的指导意见,发展目标为到2025年,数据安全产业基础能力和综合实力明显增强。产业生态和创新体系初步建立,标准供给结构和覆盖范围显著优化,产品和服务供给能力大幅提升,重点行业领域应用水平持续深化,人才培养体系基本形成。2024年,《银行保险机构数据安全管理办法》印发,使得金融行业数据安全管理更加具象化。

为何金融行业越来越注重数据安全和数据管理?

上海银行数据管理与应用部总经理于浩瀚在接受《中国银行保险报》记者采访时表示,数据本身就是业务,包括真实的金融交易业务和内部的管理流程,需要进行严格的安全管理。在没有大数据、人工智能相关技术的时候,银行数据价值挖掘更多用于经营管理和统计。目前,虽然数据安全主要还是按业务条线进行管理,但是随着技术发展,为更好地挖掘数据对业务的增益价值,数据融合的趋势越来越明显,包括行内数据的融合,行外一些其他数据的融合,在大融合背景下,企业安全的问题越来越突出。

于浩瀚介绍,上海银行把数据治理作为公司治理的重要组成部分,之前数据治理的核心目标是为了解决监管合规性的问题。随着数据在业务经营管理领域的应用深入,我们发现通过数据治理可以驱动业务流程优化和改进。“我们以前强调的理念是以用带治,利用应用来增强数据治理的动力。但目前来看,要用好数据,以用带治体系性不强、成本太高,因此在理念上要进行转变,比如以治带用、以治促用。”于浩瀚说。

中电金信研究院副院长、商业分析事业部总经理杜啸争向记者表示,金融行业愈加注重数据安全和管理,原因在于:第一,数据安全管理部门的变化。以前数据安全部门大多是在基础设施部门,从去年开始,很多已经转到了数据管理部门,其实是在业务使用和安全管理中间做一个平衡。第二,数据安全的管理尺度需要进一步摸索。数据安全管理转到数据管理部门之后,从业务的视角希望数据进一步共享和开放,例如跨企业和跨境场景,数据的深度共享和开放意味着安全风险变高,这些仍需各家金融机构结合自身情况深入摸索。第三,人工智能技术推动下,血缘分析、知识库构建等技术应用大幅提升了数据管理效率,也促进了数据融合趋势,然而这一进程也伴随着更多的数据风险挑战。

如何平衡技术发展与安全

一方面,金融行业大模型对数据的需求多样,不同部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。与此同时,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,数据完整性和准确性可能参差不齐。

另一方面,随着人工智能技术快速发展,高质量数据集作为训练人工智能模型的基础,已成为人工智能赋能千行百业的核心要素。伴随着科技发展,个人信息保护、数据安全等问题层出不穷。

对于金融机构来说,高质量数据集建设过程中需要注意哪些问题?如何平衡发展与安全?

“数据安全首先依赖于网络安全,通过网络的边界来进行有效的数据隔离。在金融行业大模型应用要理智研判。大模型应用也往往是多模型联合体,非单一模型能够实现。毕竟是一场技术革命,既不要等着看,也不要太着急,趋势和前景很明显,但也不会那么快速发生翻天覆地的变化。”于浩瀚坦言。

杜啸争认为,数据治理是大模式时代数据管理的基础,而且数据治理的基础工作一定要提前做,在业务系统分析和设计阶段就要考虑数据管理,而非事后补救,要做到数据管理前置。数据系统与业务系统企业级数据模型的持续融合是未来方向,要以实际业务价值为最终目标。他指出,相比保险业的数据治理,银行数据治理投入较早、发展较快,已形成很多的经验积累。AI时代,大模型在金融行业的应用需以实际业务价值为导向、通过数据管理前置、技术融合与场景细分来实现落地。“大模型也使得金融行业数据治理呈现一些新的特点:首先,数据的开发体系流程有变化,DataOps(数据研发运营一体化)和AI进行了深度融合。其次,元数据在大模型时代的数据治理更加重要。大模型出来后,各家银行都在构建自己的知识库,希望能够尽量减少大模型幻觉,而元数据是解决这一问题的重要抓手。最后,数据管理需要结合新技术不断迭代创新,一是结构化数据要跟非结构化数据进行统一的管理;二是要建立行业的高质量数据集,各家银行部分风险数据需要共享;三是数据治理和AI结合一定是新的方法和老的方法结合,一定是对原有模式和原有技术的加持和升级,才能在实际应用场景中真正起到作用。”杜啸争说。

于浩瀚指出,隐私保护与数据商业价值之间需要实现平衡。数据若失去个体特性,其商业价值将大打折扣,因此在数据脱敏时需恰到好处。同时,大模型不仅依赖数据,还融合知识库,对权限管理的要求更为严格。建议相关研究机构或行业监管部门提供场景化的研究案例或指导意见,以帮助金融机构更好地理解和应用数据。于浩瀚还强调,市场化的数据交换是不可避免的趋势。为此,建设数据交换市场和公共设施将有助于降低交易成本,提升数据价值。

“只有行业数据能够做到互联互通,能够形成高质量的数据集,更多的数据价值才能够被发现和应用。金融行业的数据共享由于行业特色更加有难度,需要结合现在国家推行的可信数据空间来逐步推动,这些内容的突破对金融行业来说是非常重要的。”杜啸争如是说。

#中电金信#
全部评论

相关推荐

CARLJOSEPH...:宝宝你戾气太大了
点赞 评论 收藏
分享
见见123:简历没有啥问题,是这个社会有问题。因为你刚毕业,没有工作经历,现在企业都不要没有工作经历的。社会病了。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务