-
AI时代,OceanBase如何打造新时代数据底座?
(文/陈济深 编辑/张广凯)
随着AI时代的不断发展进化,卷算力、拼算法已经让大模型厂家拼得头破血流。然而,想要让AI变得更强,算法,算力和数据三要素上,数据反而更容易是成为短板的要素。
蚂蚁旗下的OceanBase,找到了自己在AI时代的用武之地。
相比过去传统标量数据库,AI时代尤其是多模态大模型需要的不仅是能够承载向量的数据库,更是一个能够承载、分析和处理庞大数据流动的数据管理平台。
2025年4月,OceanBase CEO杨冰通过全员信宣布公司全面进入AI时代,打造“DATA×AI”核心能力,建设AI时代的数据底座。距离上述全员信发布不到一个月,5月17日,OceanBase举办了升级AI战略后的首次开发者大会,同时也是OceanBase的第三届开发者大会,公布了该公司的更多AI动态——既发布了数款产品,也重申了OceanBase在AI时代背景下的使命和愿景。
AI落地三座大山
随着生成式AI,尤其是多模态生成式AI的蓬勃发展,人类能够生产的数据量呈现爆炸性增长,传统的数据库开始显现出它们的短板。数据的规模、结构和处理方式,已经超出了传统数据库的承载能力。
根据IDC的预测,到2028年,全球新生成的数据量将达到惊人的393.9ZB(相当于全球每人每天产生1.5TB数据)。
更为关键的是,在AI时代,单纯统计、过滤、排序的标量数据库的局限性愈发明显,而基于复杂数据分析(相似度计算、推荐系统、图像搜索)的向量数据库则愈发重要,导致当结构化、非结构化数据并存时,往往需要使用多个数据库来分别处理。这种“多库并存”的方式,不仅导致管理上的复杂性,还带来了系统间的互通性问题,增加了数据存取的时间和成本。
也就是说,随着AI时代企业数据爆炸式增长和数据形式的愈发复杂化,AI应用在后台不仅会大幅消耗企业的存储成本和计算资源,传统数据库也难以同时满足高速访问和安全防护的要求。最为关键的是,企业还往往面临数据孤岛的现象——各类子系统数据互通困难,无法整合。
发布PowerRAG,提供开箱即用的RAG应用开发能力
如何解决这些问题,答案并不是简单Data+AI,即数据加上AI算法,两个部分的简单叠加。在OceanBase看来,这种做法过于简化了问题。现实中,真正需要的是Data × AI,即数据与AI深度融合。
在AI应用中,数据和模型是互相依赖的。简单来说,AI不仅仅依赖数据,更需要依靠一个统一的数据库/数据引擎来进行实时计算、优化数据质量,并为模型提供精准、快速的数据支持。只有在数据和AI深度融合的基础上,AI的效能才能最大化。
过去十五年来,诞生于“双11”海量交易场景的OceanBase,在蚂蚁集团的金融场景中不断磨砺打磨技术,并曾打破Oracle保持9年之久的世界纪录。
5月17日,OceanBase首次发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,是OceanBase面向AI时代的探索之一。
OceanBase CTO杨传辉介绍称,传统RAG应用的常用开发模式包括组件森林开发模式、RAG平台模式等,这些模式存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。OceanBase PowerRAG提供开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。
杨传辉进一步表示,PowerRAG是OceanBase在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破,并致力于成为AI时代的一体化从,以便应对生成式AI给数据基础设施带来的技术挑战。其中,数据底座指的是通过一体化的产品、一体化的引擎,同时地处理OLTP、OLAP以及AI的混合负载。
向量性能达业内领先水平,并已实现规模化落地
大会现场,基于基准测试工具VectorDBBench,OceanBase采用Performamce768D1M测试数据集,与业内三款领先的开源向量数据库进行性能跑分测试。“通过这次跑分测试可以看到,OceanBase的向量性能已经达到了开源向量数据库业内领先的水平,并且比其他的主流开源向量数据库都要好不少。”杨传辉表示。
面对AI时代的海量数据,OceanBase还引入BQ量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对JSON半结构化数据的压缩能力,降低AI场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入BQ量化算法能够实现内存成本较引入前降低 95%,而在TPC-H 10G数据集上,OceanBase的JSON压缩比可达 MongoDB 的3倍。
此外,OceanBase已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。
目前,OceanBase的向量数据库已经得到上百家客户的使用,并已实现规模化的落地。比如,联通软研院基于OceanBase打造了AI助手,银泰商业则基于OceanBase打造了零售业智能问数平台。
推出“共享存储”,实现TP场景下稳定运行对象存储
为了解决无共享架构在弹性和成本方面的瓶颈问题,OceanBase宣布一体化架构再升级,并在本次会上推出了“共享存储”产品,该产品能将计算与存储解耦,以自研一体化架构实现对对象存储(如Amazon S3、阿里云OSS等)的深度支持。
该产品还能实现对象存储与事务型数据库(TP,Transactional Processing)的深度集成,所构建的存算一体与分离的多云原生架构,不仅大幅提升云上数据存储的弹性扩展能力,更使TP负载的存储成本最高降低50%。
据悉,“共享存储”产品在云上可被应用于多种业务场景,包括典型TP、历史库及备份库,时序类业务、HBase兼容类业务、流水型业务系统、OLAP业务等。
杨传辉进一步介绍称,“共享存储”产品背后蕴含着OceanBase的多项技术突破:一是构建多级缓存架构,有效解决对象存储的访问延迟问题;二是自研基于对象存储的 LSM-Tree引擎并采用深度工程手段,降低对象存储的I/O压力;三是通过独有的持久化缓存弹性伸缩,进一步解决TP场景下热点数据的稳定性问题;此外,优化对象存储的访问全链路,确保TP业务毫秒级响应的稳定性。
通过逐一突破这些技术难点,使得OceanBase的云数据库OB Cloud成为目前业内唯一能够在 TP 场景下稳定运行对象存储的多云原生数据库:在TP负载下,存储成本最高降低50%;在AP负载下,存储成本最高可降低为原来的1/10。
与此同时,OceanBase还宣布,OB Cloud正式上线百度云。截止目前,OB Cloud已支持阿里云、华为云、腾讯云、百度云、AWS、Google Cloud 六大主流公有云平台,全球覆盖超过100个可用区。
承接AI时代使命:从一体化数据库向一体化数据底座演进
IDC软件市场研究经理李凌霄在本次会上表示,预计到2028年全球企业级数据的数据量相比2023年整体增长400%以上,年复合增长率约为30.2%。通过生成式AI技术去让多模态数据产生价值已经具备技术可行性,这意味着多模态数据将能为企业的管理、运营、决策、业务带来价值。未来,人们将会大量地产生、存储和加工多模态数据。
与此同时,AI时代也带来了新的数据难题。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。
面对行业需求,OceanBase正在大胆探索。杨传辉表示,OceanBase已经具备了一定的AI时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是OceanBase提出的构建Data×AI能力的关键。
基于这一能力,OceanBase致力于从一体化数据库向一体化数据底座演进,通过一套引擎同时支持TP/AP/AI混合负载,支持向量数据库,实现SQL与AI的混合检索。
作为一款原生分布式数据库,OceanBase原本就具有的企业级分布式数据库能力,为AI时代的海量数据处理分析打下了基础。对于支持AI应用落地的核心基础设施比如向量性能、混合检索等层面,OceanBase也在持续探索,进一步加强SQL+AI能力。比如,模型上下文协议(MCP,Model Context Protocol)是最近一款非常流行的技术,通过MCP能把每个产品接入大模型生态里,OceanBase的OceanBase service和OceanBase的管控工具OCP目前均已实现MCP支持,未来OceanBase也会全面拥抱MCP的大模型生态。
正如杨冰所言:“面向未来要搭建的不是另外一幢十几层的高楼大厦,而是要搭建一百层甚至好几百层的摩天大楼,这时就需要重新构建底层基础设施,而这也是我们所擅长的,我们也有强烈的被召唤的使命感。”未来的应用一定是基于AI的应用,未来的数据公司也都会是AI公司。”杨冰还说道:“作为一个数据存储软件未来要支撑的不仅仅是存和算,还要去支持知识的学习和获取、支持应用的推理、支持更多的决策。”为了更好地推进这些方向,OceanBase定下了四个大方向:一是成为“知识底座”,二是打破“数据次元壁”, 三是当AI的“靠谱参谋”, 四是做流量的“冲浪高手”。
而作为AI战略“一号位”的杨传辉,针对Data×AI分享了更多细节。他表示OceanBase正致力于构建能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。
Data x AI从概念上可以分成两层:Bring Data to AI和Bring AI to Data。Bring Data to AI,指的是要把数据融入大模型里,通过数据提升模型准确度,从而提升推理效率并降低推理成本。Bring AI to Data,则分成两个层次:第一个层次是在数据库里通过类似AI function的方式直接集成大模型的能力;第二个层次是把AI融合到整个数据库,以便提升数据库的可应用性,比如开发智能知识库和智能助手等。
此外,在杨传辉描绘的一体化数据底座版图中,OceanBase希望能够实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。他表示:“未来15年一定是一个AI大爆发的时代,我们也相信随着AI的应用场景以及来自中国乃至世界的AI场景打磨,OceanBase将成为AI时代的一体化数据底座。”
那么,OceanBase的信心从何而来?对此,杨传辉表示:首先,Data x AI一体化数据底座其实是OceanBase一体化数据库的延伸,它的核心在于能否做好数据处理。未来,OceanBase一定会拓展数据处理范畴,但是并不会把自己局限在关系数据库的舒适圈里,而是会让数据处理更好地适应AI时代的工作负载。其次,AI时代的应用大爆发给了OceanBase更大的机会,AI时代的应用一方面需要更多的数据,另一方面需要混合负载。对于开发者来说,他们希望在一套引擎里直接通过一条SQL处理所有的工作负载,而一体化和分布式恰好是OceanBase的优势。“今天我可以告诉大家,OceanBase的研发团队既能做数据库,也能做分布式系统,还能做AI的infra。再加上由蚂蚁集团技术能业务场景支持,OceanBase做这件事情是非常顺理成章的。”杨传辉表示。他还总结称:“学AI用AI,学OB用OB。只要大家学好AI、学好OB,我们都能很好地掌握AI时代的数据和技术。”
OceanBase原本是蚂蚁集团的一个子部门,后来独立出来成立单独的公司。在关系上蚂蚁集团就好比是OceanBase的“长辈”,蚂蚁集团CTO何征宇也在本次大会现场表示大力支持OceanBase的AI战略。他说,蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新,帮助OceanBase进一步攻坚AI关键能力。同时,蚂蚁集团将继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。
- 责任编辑: 陈济深 
-
雷军称小米3nm芯片大规模量产,高通回应
2025-05-20 10:41 观网财经-科创 -
东南亚手机五连增后下滑:三星重夺第一,传音OPPO受挫
2025-05-20 10:06 观网财经-科创 -
“三分天下有其一”,是鸿蒙上限?
2025-05-20 08:56 观网财经-科创 -
美调整昇腾有关表述;首个L4级智能体母体发布;最小自主双足机器人问世
2025-05-20 08:43 观网财经-科创 -
阿里总裁减持109万股,套现9.73亿
2025-05-19 18:51 观网财经-互联网 -
QQ浏览器升级为AI浏览器,搭载混元和DeepSeek双模型
2025-05-19 18:29 观网财经-互联网 -
IPO屡战屡败,“水牛奶第二股”百菲乳业仍在“死磕”
2025-05-19 17:29 观网财经-消费 -
鸿蒙折叠电脑发布,23999元起售
2025-05-19 17:09 观网财经-科创 -
小杨哥带过货的“香港”月饼,注销了佛山厂家
2025-05-19 16:41 观网财经-消费 -
传禾赛科技秘密申请香港上市,此前多次被美列黑名单还遭做空
2025-05-19 16:08 观网财经-科创 -
小米:团伙操纵“近万个账号”恶意诋毁,案件已告破
2025-05-19 14:41 观网财经-科创 -
荣耀澄清退出印度传言,已准备好推出四款新机
2025-05-19 14:15 观网财经-科创 -
雷军:小米自研SoC芯片采用3nm制程
2025-05-19 11:58 观网财经-科创 -
统计局:促进价格合理回升
2025-05-19 11:38 中国经济 -
4月上海房价同比上涨5.9%,各线城市房价同比降幅均收窄
2025-05-19 10:49 观网财经-房产 -
海外市场收入增长8%,也没能拉回敏华控股下行的业绩
2025-05-19 10:23 -
国家统计局:4月份国民经济顶住压力稳定增长
2025-05-19 10:12 中国经济 -
4月70城二手房售价环比5城上涨:上海、成都、西宁、丹东、赣州
2025-05-19 09:56 观网财经-房产 -
英伟达重新审视中国市场战略;梁文锋署名论文;OpenAI发布AI编程智能体
2025-05-19 08:49 观网财经-互联网 -
中美经济,到底谁更需要谁?
2025-05-19 08:49 美国“关税大棒”
相关推荐 -
“比美国先进20年,但中国稀土业要居安思危” 评论 106俄美元首通话超2小时,俄乌停火谈判有戏? 评论 77“特朗普的耳朵成了关键战场” 评论 27“法国情报部门让我干预大选,我拒绝了” 评论 78“学者回望:特朗普这个时期,是中国赶超美国分水岭” 评论 210最新闻 Hot
-
“比美国先进20年,但中国稀土业要居安思危”
-
特朗普拟对中国起重机加100%税,“美国这行80年代就黄了”
-
安徽凤阳鼓楼瓦片大面积滑落,当地通报
-
陈奕迅发文报平安
-
“特朗普的耳朵成了关键战场”
-
欧盟宣布:英国,“回到世界舞台”
-
“法国情报部门让我干预大选,我拒绝了”
-
韩国一医废处理厂部件坠落,致中国员工1死1伤
-
“日本车企很绝望”
-
“我都没买过米,全是别人送的…”,日本农相道歉了
-
高志凯提建议,巴基斯坦主持人的嘴角都压不住了…
-
“学者回望:特朗普这个时期,是中国赶超美国分水岭”
-
华人“钢铁大王”在菲遭撕票案主谋落网,部分赎金已提走
-
“特朗普次子要去越南,想在胡志明市建特朗普大厦”
-
“我来到这里工作,因为中国是支持环保的超级大国”
-
“中国稀土出口审批速度慢,西方急啊”
-