AI时代OceanBase如何实现DATA×AI战略升级

2025年,开源AI模型DeepSeek与OpenAI推出的GPT-4.5共同引爆了全球新一轮生成式AI热潮。在这一背景下,作为AI技术发展三大要素——数据、算法、算力中的关键一环,数据已成为推动AI技术革新的核心驱动力,同时也是数字时代的新型核心生产要素。根据IDC数据,2024年全球大数据IT总投资规模约为3540亿美元,预计到2028年将接近6440亿美元,五年复合增长率(CAGR)高达16.8%。其中,中国大数据IT支出规模预计在2028年将达到621.7亿美元,全球占比约10%,复合增长率24.9%位居全球首位。当前,中国的数据产量已占全球总产量的23%。

OceanBase首席技术官杨传辉在WpBull.comAGI的采访中强调,AI时代的到来使数据处理的边界得到进一步延伸,多模态大模型所涉及的图片、文本、视频等富媒体无结构化数据规模持续增长。同时,数据扩展性、规模碎片化等行业挑战日益严峻,OceanBase致力于打造一体化数据处理平台,为客户解决实际需求与难题。

据悉,OceanBase成立于2010年,是国内领先的一体化分布式数据库企业。2020年,蚂蚁集团旗下OceanBase成立北京奥星贝斯科技有限公司并启动商业化运作,陆续推出自研OceanBase4.0、4.2、4.3等系列技术产品与解决方案。目前,OceanBase已助力金融、政务、运营商、零售、互联网等多个行业的2000多家客户实现关键业务系统升级。

2025年4月,OceanBaseCEO杨冰发布全员信,宣布公司将全面进入AI时代,打造”DATA×AI”核心能力,建设AI时代的一体化数据底座,蚂蚁集团也将向OceanBase开放全部AI场景。为保障战略推进,OceanBase启动人才和组织体系升级,任命CTO杨传辉担任AI战略一号位,并成立AI平台与应用部、AI引擎组等新部门。5月17日,OceanBase将举办2025开发者大会,主题同样聚焦AI。大会前夕,WpBull.comAGI与OceanBaseCTO杨传辉展开独家对话,这也是杨传辉被任命为AI战略一号位后的首次公开交流。

杨传辉表示,打造”AI时代的一体化数据底座”是OceanBase现有战略的自然延伸,源于市场需求与产品技术能力。在AI时代,数据规模与种类日益复杂多样,数据库与AI的关系并非简单的DATA+AI,而应是DATA×AI,核心在于海量数据处理能力、不同结构数据融合能力,以及数据与模型融合的工程能力。作为一体化分布式数据库平台,OceanBase将成为AI时代的理想选择。

杨传辉强调,实现这一目标面临技术创新、生态建设等挑战,OceanBase需保持战略定力,用时间和坚持确保未来发展。”我们坚信,AI时代的一体化数据底座,一定能够满足用户需求。”杨传辉表示。

以下是WpBull.comAGI与杨传辉独家交流速记整理(部分删减):

WpBull.comAGI:近期许多公司宣布加码AI战略,OceanBase提出战略升级至”AI时代的一体化数据底座”,外界如何理解这一转变?

杨传辉:首先要明确,不是因AI热潮才提出此战略。本质上是OceanBase现有战略的延伸。传统数据库主要处理结构化数据及少量半结构化数据。AI时代下,数据处理边界延伸至多模态大模型的图片、文本、视频等无结构化数据。同时,AI大模型使数据规模远超以往。OceanBase作为原生分布式数据库,经双11海量数据场景考验,具备金融场景的稳定性安全性,一体化能力原生支持多种数据类型,提供向量能力。这种分布式与一体化特色在AI时代更具价值。我们战略从”数据库”延伸至”数据底座”,旨在全方位、一体化处理结构化、半结构化、无结构化数据,同时数据库研发团队天然具备AI基础设施工程能力,实现DATA×AI的关键。全球知名数据库公司如Oracle、Snowflake、Databricks等也在随趋势变化。AI时代下,OceanBase需确保未来更受欢迎,抓住新应用场景。如今TP/AP负载、向量、搜索等技术边界日益模糊,企业需要AI时代的一体化”数据底座”,这使OceanBase成为AI时代的最佳选择。

WpBull.comAGI:2024年数字价值年会上,OceanBaseCEO杨冰提到AI对数据库的重要性:AI for DB与DB for AI。如今DATA×AI是一种怎样的新变化?

AI时代OceanBase如何实现DATA×AI战略升级

杨传辉:我们对数据库与AI关系深入思考,认为两者非简单的DATA+AI,而是DATA×AI。一方面,客户数据天然存储在OceanBase等数据库,AI大模型也具备token等通用数据,两者应产生更融合的化学反应。另一方面,大模型技术层面分为算法、工程、数据、应用能力,工程能力本质在于提升数据处理效率,解决计算、资源、效率问题,除数据能力外,数据库研发团队天然具备这一工程能力,能帮助DATA与AI技术进一步融合,实现DATA×AI。开发者大会上将进一步阐释。

WpBull.comAGI:生成式AI面临数据量通货膨胀、数据孤岛碎片化严重、数据分析需求爆发等挑战,OceanBase做了哪些新工作?

杨传辉:AI确实给数据处理带来挑战,如数据规模扩大、数据孤岛、多模态问题。OceanBase的分布式能力、一体化架构能解决部分问题,但个别领域仍需完善,我们持续加强扩展性、工程能力。4.3、4.4版本沿一体化方向推进。AI时代更需大胆发展,如更好地处理无结构化数据,加强向量能力等。

WpBull.comAGI:今年开发者大会主题也是AI,预计有哪些发布?

杨传辉:首先发布AI相关数据库产品与能力,在向量数据库等一体化数据底座数据处理能力上大幅提升,性能与性价比达业界一流水平。其次发布RAG服务,我们在AI领域技术实力雄厚,将以RAG服务方式帮助企业结合自有数据与公开数据模型,创造更大业务价值。最后发布OceanBase自身应用大模型成果。

WpBull.comAGI:现在做AI基座模型的企业越来越少,很多模型企业不再做预训练,而是做推理模型或行业模型,数据参数规模缩小。客户数据处理需求会持续吗?

杨传辉:可能是两个问题。第一,预训练门槛越来越高,但仍有企业加大投入。未来少数公司会持续提升能力,强化学习空间巨大。第二,预训练与数据需求是两回事。对OceanBase这类一体化数据底座,数据量会持续增长。预训练可能处理token,但数据底座数据量取决于AI应用规模。AI应用越多,数据量越大,当前AI应用需求爆发,对数据需求、种类、结构需求不断增加,最终AI对数据需求只会更大。

WpBull.comAGI:随着企业使用大模型时更多采用自有数据,模型的”幻觉”会消失吗?”幻觉”影响AI价值发挥吗?

杨传辉:模型”幻觉”不能完全消除,但会降低。AI大模型原理是预测下一个token,对算力要求高,从众多词语中选词。AI调用模型是”炼丹”过程,是概率性问题。看待”幻觉”需两方面:一、随着AI推理训练、强化学习等技术发展,模型幻觉会降低,语料准确率提升,有技术红利。二、尽管有幻觉,但当前AI技术已能在多场景应用,未来更多产品将涌现。未来5年,若幻觉降低,技术能力充分发挥,各应用场景潜力巨大。

WpBull.comAGI:实现面向AI时代的一体化数据底座,OceanBase还面临哪些挑战?未来终极目标与前景如何?

杨传辉:挑战众多。第一是技术挑战。如何让DATA×AI真正结合,降低幻觉、成本,让数据融入AI,是世界级难题。第二是生态挑战。数据底座或数据库需转化为千万企业使用的技术产品,涉及开源策略、商业策略、服务能力、生态等细节,需策略、时间与坚持。具体策略包括:一、由数据库产品到AI时代数据底座,适应AI需求,迭代更敏捷;二、更加开放,提升研发团队能力。数据库生态方面,OceanBase开源社区已是国内最强,但全球仍有差距,如何实现”全球级”生态是重要课题。终极目标,OceanBase始终专注数据处理,帮助用户完成数据处理,成为全球最佳选择。很多人认为OceanBase是”分布式关系型数据库”,但未来在于做AI时代数据底座。我们不想被”关系型数据库”标准限制,产品与工程能力一流,需开放心态看待最新业务场景与数据。我们坚信,AI时代的一体化数据底座,一定能满足用户需求。(本文首发于WpBull.comApp,作者|林志佳)

文章网址:https://www.wpbull.com/ai/29542.html