无标题
创始人
2024-05-29 14:21:28
0

这一个月,AI 继续高速向前推进:技术疯狂向前,价格疯狂下降。

OpenAI、Google 先后发布 GPT-4o、Project Astra 、微软刚发布 50 多项 AI 相关更新;字节的「豆包」大模型家族、腾讯的混元大模型集体亮相。

数小时内大模型算力进入「厘时代」,阿里云、百度、字节统统降价甚至免费,就差花钱补贴用户了。

在这样的氛围下,5 月 22 日,极客公园今夜科技谈邀请到矩阵起源创始人 & CEO 王龙做客,畅聊数据和算力这两个大模型发展的基础要素。

作为从数据库业务升级大模型操作系统,矩阵起源刚刚拿到 Pre A 轮的数千万美金融资。和硅谷明星数据公司 Databricks 一样,矩阵起源也是一家从大数据时代就坚持长期主义,在设计之初就考虑了未来与 AI 技术的对接,一开始就坚持自己做「数字世界操作系统」的愿景,直到迎来 AI 时代,成为更适配新时代的数据公司。

别看现在技术和价格卷得如火如荼,目前能用好 AI 能力的公司十分有限。当前阶段稍显「有价无市」的大模型落地,是一个显而易见的痛点。

王龙认为,首先要调整对大模型能力的认识和期待,「就像自动驾驶,L2-L3 已经可以带来很多价值了。」在企业应用大模型能力中,当前需要做很多繁琐的自适配。

矩阵起源依然在做难而正确的事,发布操作系统 Matrix OS,和世纪互联联合发布「Neolink.AI」,做未来的「大模型工作台」,像连接鼠标键盘一样连接数据和算力,帮助更多公司一键进入大模型时代。

正如王龙清晰地说到,「我们的操作系统连接数据存储和算力资源,服务对象包括大模型开发者和传统企业应用开发者,我希望以最简单、最合理的方式为他们提供所需的算力和数据资源。」

AI 降价了,但痛点不是价格

张鹏:最近大模型领域价格战很受关注,其实这场价格战背后,一方面是技术进步和规模效应带来的成本优势,另一方面也体现出行业想要让更多行业能真正应用大模型的意愿。

今天我们介绍的创业公司矩阵起源,正是从大模型发展中两个非常重要的因素——数据和算力领域内开展业务,他们刚刚拿了 Pre A 轮的数千万美金融资。他们要解决的是什么样的问题,让资本这么看好,这么大规模的投入?

我们邀请到了矩阵起源的创始人兼执行董事长王龙,您可以先做一下自我介绍。

王龙:我是行业老兵,在三个国家、十几个公司工作过。在中国过去几年主要是在腾讯做物联网、大数据和人工智能的负责人。2021 年再次创业,决定围绕数据做一些事。

我们最核心产品 MatrixOne 数据库和 MatrixOne Cloud 全托管云原生数据平台,是把结构化、非结构化的数据放在一起,把智能物联网和 AIGC 的数据,传统企业的数据放在一起,用同一套存储、同一个计算框架去处理。最近融资后,我们又加了一些算力的重点。

张鹏 :最近 OpenAI 发布 GPT-4o,谷歌也推出 Project Astra,都提到了多模态技术,这个变化体现了什么?

王龙 :说一个我的经历。之前我们公司为所有开发人员配备了 GitHub 的 Copilot 工具。在我亲自体验了最新的 GPT-4o 之后,我决定为所有员工购买 GPT 服务套餐。由于我最近有许多与 Office 相关的工作,如制作图表和撰写文档,我发现 GPT-4o 在处理多模态任务方面表现出色。

我想分享下我对大型模型的看法是如何发展的。大约在前年年底,GPT 首次发布时确实令人震撼。我当时就意识到,这是人机自然语言交互领域的一次革命。一开始,我并没有深入考虑太多,我觉得只与机器人聊天并不会带来太多实际收益。

在上一次深度学习浪潮中,大家利用它在人脸识别、安全监控、OCR 等领域赚钱。这些领域在半年到一年后才真正实现了商业化落地和盈利,而且赚钱过程也相当艰难。

但我发现这次 AI 浪潮与上一次深度学习技术有很大不同,这次 AI 的影响力和发展速度明显要快得多。2023 年 1 月到 2 月,已经有人开始利用这些技术赚取了数百万甚至上千万的收入,比如使用 AI 生成文案,进行广告营销等。这一次 AI 浪潮的发展速度和影响力至少是上次的十倍。

现在情况又有所不同,多模态技术让我们认识到,尽管纯文本有很大的想象空间,但与结合了图片、视频和音频的多媒体能力相比,文本的价值还是有所不足。其潜在的想象空间可能至少是 2016 年 AI 浪潮时的一百倍。虽然我还不敢断言它能否达到工业革命时蒸汽机的程度,但市场潜力已经非常巨大。

张鹏:现在看到多模态的能力未来能创造更大价值,那么多模态技术与大模型的核心能力之间的关系如何? 企业如何在大模型时代更好地认识和利用自身的数据资产,未来会发生哪些变化?

王龙:我创业的时候在考虑,是继续做数据相关还是 AI 相关。AI 更偏向于应用,更容易通过人和项目来赚钱,但数据则更加偏底层,需要靠产品来支撑。

因为不管未来 AI 如何发展,数据都是数字世界最为核心的要素。所以从一开始创立公司时,我们的目标就是要成为「数字世界的操作系统」,做一个奠基者,而不是仅仅做一个数据库。

张鹏:数据库是第一块砖,是吧?

王龙:对,无论未来 AI 发展如何,数据无疑都是最基础的「第一块砖」。无论是为 AI 服务还是其他系统服务,数据都起着关键作用。所以我们选择了专注于数据领域。

接下来我们思考,到底应该围绕哪些数据展开? 传统企业数据不太可靠,而互联网数据领域已有许多先驱。于是我们把目光转向新兴的智能物联网数据,包括摄像头、麦克风、工业传感器等产生的数据,希望能够建立一个数据操作系统,将这些异构数据整合在一起。

为了融合各种不同时代和系统的异构数据,我们的系统架构需要保持高度的创新性。而这种架构的优势,AI 兴起之后会变得更加明显。

现在我们的数据库系统,在推理模型、代理系统、向量处理等方面都已经具备了相应的能力。我们正在进一步规划如何将训练数据也有机地融合进来,以进一步增强系统的功能。

一开始我们就定下做「数字世界操作系统」的愿景,所以我们提前做了一些前瞻性的布局。现在看来,这不仅是我们得以成功融资的关键因素,也使我们的数据库系统脱颖而出,不再是一个普通的数据库,而是一个面向未来的创新型数据管理平台。

矩阵起源 Matrix OS | 图片来源:矩阵起源

张鹏:你认为数据库是一个有意义的面向未来的问题,所以你才会有新的架构、新的目标去做,当时你是怎么判断未来的?

王龙:我将数据大致划分为几类。

第一类是企业数据,主要涉及内部流程管理,如 ERP、进销存、OA 等系统产生的结构化数据。这类数据注重存储空间利用、数据完整性等特点,总体比较「乖巧」。

第二类是互联网数据,主要体现在个人消费、UGC 内容等领域。这类数据不像企业数据那么「严肃」,存在很多不确定性。像谷歌的 Hadoop(一个分布式系统基础架构)生态,就是针对这种数据量大、质量参差不齐的特点而设计的,它们的思路是忠实记录原始数据,然后交由检索系统去处理分析。

随着移动互联网的兴起,数据规模和复杂度进一步提升。这些演变过程反映了数据本质的变化——从早期结构化、确定性强的企业数据,到海量、多样、不确定的互联网数据。这就给数据管理和处理带来了全新挑战。

此外,智能物联网数据发生变化,之前的互联网数据大多源自人工产生,但物联网时代,很多数据来自于各类机器设备,如摄像头、手机等。

这种机器生成的数据,与人工数据不一样,如果这些数据出现错误,很难确定责任归属。相比之前,这类数据,不仅要关注数据的完整性和可靠性,还要处理数据出错时的责任认定问题。

随着 AI 时代的到来,数据的性质又发生了变化。之前 AI 主要基于公众互联网数据进行训练,但真正落地应用时,它又需要结合企业内部数据,以及物联网数据,比如说去做设计、去做勘探、去做工业控制。

张鹏:下一步的决策是怎么做的?

王龙:无论是做 AI 还是其他,未来人类都会倾向于将各类数据集中到同一个地方进行处理。因为只有数据聚合在一起,其价值才能最大化。

比如,生产数据可能存在企业内部,而营销数据则在互联网上,如果能将它们整合起来,就能实现更优化的应用。即便是互联网企业,内部也会有一些财务、管理等系统产生的数据。所以将这些异构数据统一管理,才是最优的。

为了满足不同时代数据的特殊需求,我们在设计系统架构时考虑了这些。首先,我们选用了云原生的存储技术,能够将各类异构数据统一存放在同一个存储系统中。无论是企业内部数据、互联网数据,还是物联网数据,云原生存储都能够灵活容纳。同时,我们对存储系统进行了精细化的设计,以支持高效的数据处理。

第二我们意识到不同类型的数据,对处理的需求也存在差异。有的需要记录错误信息,有的则要注重数据诞生的痕迹;有的对吞吐量有很高要求。为了满足这些差异化需求,我们采用云原生的计算资源细粒度调度技术,以灵活适配不同数据的特点。

张鹏:这不光是湖仓(开放式架构)的问题,还是存储的问题,这成了一个新的目标吗?

王龙:是的,然后我们采用了一种全新的架构来构建我们的计算框架,这当然有代价,就是团队无数次的代码重构。我们经历了一次又一次的试验,得到了一些非常重视我们理念的客户的支持,他们一直在提供真实数据来改进我们的产品。让我们不断发现需要改进的地方,并且及时做出调整。

到了去年 10 月,当我们正式发布产品时,已经有三四十位客户,感谢他们帮助我们打造了一个独特的管理、存储和计算资源的框架。

这套框架的优势在于,无论我们接入什么类型的数据,都变得非常容易。比如人工智能数据,或者接入任何类型的计算资源(如我们所说的制算资源或GPU资源)。这是因为我们的系统本质上是一个易于插拔的系统,类似于操作系统的概念,可以轻松地接入不同厂商的鼠标或显示屏。

许多创业公司可能在一两年内就获得了大量客户,而我们用了三年时间才获得了三四十个客户。然而,我认为这种努力是值得的,因为它帮助我们建立了一个强大的产品基础。

张鹏:在大模型技术爆发和国内对大模型的热潮中,你认为创业者应如何识别和把握未来的机遇,进行战略调整?你作为一个成熟创业者,当时是怎么经历的决策过程?

王龙 :我和我们投资人世纪互联创始人兼执行董事长陈升有一次聊到说,有客户面临 IT 投入增长速度远超业务增长的问题,问我有什么方法可以控制这种不可控的增长。

我分析后发现,客户的软件成本增长还算合理。国内大多数厂商要么使用开源产品,要么使用国内软件公司的产品,他们不会因为使用了 500 台服务器就支付 500 台的费用。

那他们的成本主要增长在哪里?我原本以为,客户的硬件从 500 台增长到 1000 台,矩阵起源软件能帮助节省大约 200 台或 300 台。但客户要求减少一半成本,而软件的成本只占总成本的 20%,我就算不收钱,成本也只能减少 20%。

陈升说,客户现在的需求已经不在于使用普通的服务器机柜了,客户现在最关心的是智能算力。因为过去,作为一个企业信息化负责人,你搭建一套 IT 系统,投入可能分布如下:硬件占 50%,其他如电费、软件费用、服务费用等各占 10% 左右。

「一键 AI」难在少了「工作台」 从数据智能到「算力智能」

相关内容

热门资讯

李斌回应蔚来四季度盈利问题:如... 11月10日消息,在近期的蔚来用户活动现场,蔚来创始人、董事长兼 CEO 李斌就备受关注的“蔚来四季...
谷神星一号(遥十九)运载火箭发... 新京报讯 11月10日,星河动力航天在其官微发布关于谷神星一号(遥十九)运载火箭发射任务的情况说明。...
工信部:将加速推动五大重点领域... 【大河财立方消息】11月10日,国新办举行国务院政策例行吹风会介绍加快场景培育和开放推动新场景大规模...
原创 全... 女子单人10米跳台决赛的名单上,没有全红婵的名字。这位跳水天才少女在经历了长达半年的伤病恢复期后,选...
让新质生产力在新型生产关系中持... 来源:北京日报客户端 赵慕兰 史芬芬 2024年4月,由工业和信息化部、科技部和北京市政府联合发布了...
从进博会热门爆款看未来生活新图... 11月8日,在第八届进博会汽车及智慧出行展区伟巴斯特展位,观众在了解一款汽车智能座舱。 11月6日...
原创 中... 根据国台办新闻发布会的报道,发言人张晗回应了关于两岸交流、台湾半导体产业、以及“太空小鼠”等热点问题...
当“网文盛世”遇见“半城烟火”... 深秋的泉州湾,温润的海风携着古港千年潮汐,拂过蜿蜒海岸。11月9日,这座世遗之城迎来2025中国网络...
原创 三... 虽然前几年的三星Exynos旗舰手机SoC,在市场上几乎都评价不太好,但这一次唯一的疑虑,似乎已经不...
10个PLC综合故障原因,看完... 来源:市场资讯 (来源:电力四射) 近年来,随着社会的发展,PLC可编程序控制器在工业生产中得到了广...