大模型卷价格,向量数据库“卷”什么?
创始人
2024-05-23 15:20:09
0

“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在公有云市场也同样适用。技术风向的变化之快,让不少人感到惊讶。

2023年初大模型、生成式 AI的起飞,也带来了向量数据库的爆火。投融资项目爆发式增长,头部公有云厂商都推出了AI向量数据库的相关产品。

然而一年狂飙之后,市场逐渐退潮,全球最著名的 AI 项目之一AutoGPT在2024年初宣布,不再使用向量数据库。因此有人质疑,向量数据库又凉了?

不过,随着5月份公有云厂商们掀起价格战,接连调低大模型API的价格,高性价比的大模型+向量数据库,在行业应用、企业市场又显现出了一定的商业价值。

向量数据库这一年的潮起潮落,究竟是火了还是凉了?大模型正在卷价格,向量数据库又该卷什么?公有云厂商又在这一市场发挥了什么作用?今天我们就来聊聊这些问题。

向量数据库,刚刚开始

新技术的火爆,必然会伴随炒作和泡沫,但向量作为大模型理解世界的数据形式,向量数据库作为AI革命重要基建的位置,长期来看是不会动摇的。

为什么这么说?

向量数据库并不是一种特别新的数据库技术,在AI领域已经应用了七八年,谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”,那么,向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质,具体表现在几个方面:

1.更高的效率。AI算法,要从图像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的“特征”,以便模型能够理解和处理。因此,向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值,必须达到合理的投入产出比,而向量数据库可以有效减少存储和计算成本。一个公开数据是,通过腾讯云向量数据库,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%,就在于检索效率、运行稳定性、运营效率、推荐算法等,有了较大的提升。

3.更强的数据安全。有企业直言:“沉淀了几十年的内部数据是我的核心竞争力,让我无偿去公开给大模型做训练,我肯定不愿意。”想做大模型,还要确保数据的隐私安全,就必须与数据库产品做好配合,这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用,垂直领域的AI用例不断增多,汹涌的数据洪潮和存算任务,会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据AI用例和模型而变化,更好地处理大规模数据集。

从大模型技术标杆的OpenAI发布的GPT-4o和即将发布的GPT-5消息来看,以及国内外商业化大模型的进展来看,大模型的技术路线还没有发生颠覆性的变革,因此落地应用还是需要向量检索和向量数据库。

由此可以肯定,向量数据库市场必然还会迎来一轮增长。趋于冷静,只是2023年热情过度高涨的适当回调。

两大新势力,云是方向

据东北证券预测,到2030年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿人民币。向量数据库市场吸引了“群雄逐鹿”,从引爆到饱和,进展迅猛,

传统数据库厂商不必多说,既有相应的能力建设,也有一定的客户基础,推出相关产品是必然。一些在AI领域积淀已久的科技大厂,如谷歌、微软、Meta、百度等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。

除了这些常规面孔,向量数据库市场也吸引了新的参与者。

作为这一轮大模型投资热和创业热的主要目标之一,向量数据库领域诞生了不少创新创业公司。比如AI创业新秀Pinecone就是闭源的领跑者,凭借良好的开箱即用的产品体验,获得了非常大的增长,B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

不过,作为创业公司,长期盈利能力还有待验证。一个主要原因,是客户大多是尝鲜、实验性质。

企业需要先将非结构化的私密数据,进行一个小的模型,进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及大量的工程化,会耗费企业许多开发人员、时间成本,一开始可能会因为AI大模型很火而对向量数据库产生兴趣,但能否真正在业务中落地还是个未知数。因此,长期付费意愿还有较大的不确定性。

另一股积极参与的新势力,就是公有云厂商。

不是所有企业都有能力自建大模型所需要的基础设施,通过MaaS(模型即服务)业务来训练应用大模型,是更灵活的选择。此外,很多政企客户往往会选择公有云或行业云来满足其业务需求,对云数据库的关注度和接受度上升,而这些用户在探索大模型时,会倾向于以整体解决方案的形式来交付,这就给了云厂商参与游戏的机会,同时也要求云厂商提供向量数据库的全栈支持。

如今头部云厂商基本建立了全生命周期AI化的向量数据库。有数据显示,企业原先接入一个大模型需要花1个月左右时间,使用某公有云的向量数据库后,3天时间即可完成,极大降低了企业的接入成本。

更何况,前不久火山引擎、阿里云、百度智能云等都围绕大模型API价格,打起了互相抄底的“价格战”,意味着AI创新门槛的降低,而AI应用市场的用户规模扩大,也会带动向量数据库的使用需求。

综上,整个云AI市场的格局还在快速变化之中,风物长宜放眼量,AI Native的向量数据库,前景仍然值得期待。

接下来,向量数据库卷什么?

有人可能会问了,大模型开始卷价格,那向量数据库市场正在卷什么?

需要注意的是,大模型降价是以云厂商为主,而零一万物等创业公司已经明确表示会以技术创新为竞争力,而不会(与云厂商)对标价格。云厂商在AI基础设施、商业生态、市场规模效应上的既定优势,确实也会表现在向量数据库市场。

目前来看,公有云厂商有几重特殊优势,或许会让向量数据库加速走向商业成功:

  1. 多元化部署。垂直行业大模型,数据都是私有机密的,客户一般不愿意放到公有云上,这对一部分支持混合多云的云厂商是一大利好,通过私有部署、分布式、混合云等多种方案,打消行业客户将数据放到云端的现实疑虑。

2.一体化AI能力。向量数据库的火爆,本质是由AI驱动的,而AI Native时代的数据工程,还有许多复杂问题尚待解决,比如检索效率,在处理大规模数据的并行任务时,保持快速响应时间是一个挑战,需要优化索引结构和搜索算法;高负载下的系统稳定性,需要确保数据库系统具备高可用性和容错能力,防止服务中断;存储海量的向量数据,成本效益比要进一步优化……目前来看,云厂商具备从底层算力集群、Maas模型平台到全栈工具链的AI能力,有望通过技术协同创新,持续优化向量数据库的性能和成本。

3.产业服务能力。各行业对AI与业务的结合热情高涨,但大多还处于尝试探索期,需要结合自身场景、AI应用、IT设施等多种因素试错并迭代。这个过程中,随叫随到、帮助客户及时解决问题的ToB服务能力,也是非常看重的。深耕产业的公有云,有望降低很多企业在AI技术革命中的机会成本。

有人说,AI云市场越来越卷了,随着大模型性能边际效益不断走低,云厂商不得不用低价换规模。但有句话:“东方不亮西方亮,黑了南方有北方。”只要公有云厂商在AI领域的产品阵营足够庞大,用多元化综合优势锁定用户,那么即使大模型收益下降,在商业回报上也不愁没有回旋的余地。

从这个角度看,或许公有云市场下一个卷起来的,就是向量大模型。

相关内容

热门资讯

印度首富搞近地轨道卫星星座!安... 印度首富穆克什·安巴尼(Mukesh Ambani)要把Reliance Jio从地面打到太空。 据...
三星Galaxy Unpack... 【CNMO科技消息】三星今年第二场Galaxy Unpacked发布会的传闻正逐渐清晰。6月21日,...
伊朗副议长说伊朗损失必须得到赔... 4月9日消息,伊朗伊斯兰议会副议长阿里·尼克扎德当地时间4月8日在接受媒体采访时说,要达成停火协议,...
渣打:为期两周的美伊停火协议对... 4月9日消息,渣打银行能源与金属研究团队在一份报告中表示,为期两周的美伊停火协议对能源供应的帮助可能...
安徽省政协原党组成员、副主席姚... 4月9日消息,中央纪委国家监委网站4月9日通报,安徽省政协原党组成员、副主席姚玉舟涉嫌严重违纪违法,...
特朗普说美媒披露的10项停战条... 4月9日消息,美国总统特朗普8日在社交媒体上发文称,《纽约时报》和美国有线电视新闻网分别报道了一份关...
九岭锂业沪主板IPO终止,原计... 4月9日消息,近日,上交所披露,因江西九岭锂业股份有限公司(以下简称“九岭锂业”)及其保荐人撤回发行...
马斯克称FSD V15安全性将... 4月9日消息,马斯克在社交平台表示,特斯拉FSD V15版本即使在完全无人监管和复杂情况下,其安全性...
淘宝闪购上线首个支持语音搜索能... 4月9日消息,淘宝闪购近日面向餐饮商家的AI Agent入口-AI店铺助手,正式上线语音搜索能力(后...
宁波能源、宇树科技等成立机器人... 4月9日消息,天眼查工商信息显示,4月7日,浙江宇蓝智能应急机器人研究院有限公司成立,法定代表人为李...