智东西(公众号:zhidxcom)
作者| 香草
编辑| 漠影
近日,Meta开源Llama 3系列模型,引发开源社区沸腾。
同时也有唱衰国产大模型的声音出现,认为Llama 3的开源“又”将为国产大模型带来“新突破”。但事实果真如此吗?
智东西4月30日报道,上周,来自UC伯克利等机构的团队LMSYS开源了大模型基准测试Arena-Hard,以高度的人类偏好一致性、可分性为优势,同时测试数据集更新频率高,具备优秀的开放性、动态性、科学性和权威性。
根据该基准测试,国产大模型ChatGLM3、GLM-4排名仅次于GPT-4 Turbo和Claude 3 Opus,在国内外模型中均处于领先地位。
同样在上周发布的还有《SuperBench大模型综合能力评测报告》,由清华大学基础模型研究中心联合中关村实验室研制。在语义、代码、对齐、智能体和安全五个榜单中,GLM-4有3项排名国内第一,其中语义理解能力更是仅次于Claude 3位列全球第二。
GLM系列模型是智谱AI自研的基座大模型,其中GLM-4是其在今年1月推出的最新一代,具备多模态、长文本、智能体等能力。
这表明,国产大模型在技术层面上早已不输国外,站在全球大模型竞争的第一梯队,追赶GPT-4或是Claude 3也不再是遥遥无期之事。同时在落地层面,智谱AI在B端、C端全面布局,走出了一条产学研用深度融合的道路。
一、人类偏好一致率近九成,GLM权威测评超越Llama 3
Arena-Hard使用大模型竞技场(Chatbot Arena)的实时数据构建,从20万用户查询中挑选500个高质量提示词作为测试集,并由GPT-4 Turbo作为“裁判”评判输出。
所谓大模型竞技场,是LMSYS构建的模型测评系统,其采用众包方式进行匿名、随机化的大模型对战,根据用户对回答的反馈进行评分。
Arena-Hard从七个指标来衡量大模型能力,包括具体性、领域知识、复杂性、解决问题、创造力、技术准确性以及实际应用,具有两大SOTA(当前指标最优)优势:人类偏好一致性、可分性。
由于测评数据来源于人类真实反馈,其得分与人类偏好高度一致,达到89.1%;与模型分数都相近的基准MT Bench相比,其区分度从22.6%提升至87.4%。
此外,Arena-Hard的测试数据频繁更新,也减轻了数据泄露带来的“刷榜”等潜在问题。
在Arena-Hard基准上,智谱AI自研的ChatGLM3、GLM-4以54.7、53.9的评分,力压Llama 3 70B、Mixtral 8x22B等前沿模型分数30%以上,排名仅次于GPT-4 Turbo和Claude 3 Opus,在国内外模型中均处于领先地位。
▲Arena-Hard评测结果(图源:智谱AI)
ChatGLM3、GLM-4与Claude 3 Opus的分差极小,此外GPT-4作为评委,会更偏好自己的输出,因此其分数有一定程度虚高。在此基础上,GLM系列模型与GPT-4 Turbo之间的分差进一步缩小。
GLM系列模型并不算是“黑马”。
早在2022年11月,GLM-130B就在斯坦福大学大模型中心发布的报告中,成为30个全球主流大模型评测中唯一入选的亚洲模型。评测结果显示,其准确性、公平性与GPT-3持平,鲁棒性、校准误差和无偏性优于GPT-3,且鲁棒性、校准误差在所有模型中表现排名前三。
▲斯坦福报告对30个模型的测评,其中上箭头表示数值越高越好,下箭头反之,davinci即GPT-3(图源:斯坦福)
报告地址:https://arxiv.org/abs/2211.09110
今年1月,上海AI实验室发布了大模型开源开放评测体系司南OpenCompass2.0,同时揭晓了2023年度大模型公开评测榜单,智谱AI新一代基座大模型GLM-4总排名第二,位居国内榜首。
▲2023年度大模型公开评测榜单(图源:上海AI实验室)
同样在上周,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,发布了3月版《SuperBench大模型综合能力评测报告》。
在语义、代码、对齐、智能体和安全五个榜单中,GLM-4均跻身全球第一梯队,其中语义理解仅次于Claude 3位列第二,其余四项能力排名第四;在代码、智能体能力上更是力压一众竞争对手,成为国内第一。
二、清华系学院派出身,竞逐OpenAI“向AGI发起冲锋”
过去一年多,国内诞生了多家大模型独角兽,互联网大厂等也在加速自研大模型的开发。为什么智谱AI能在其中脱颖而出,在技术层面达成领先优势和国际认可?
这离不开其背后的初创团队和明确的路线选择。
成立于2019年的智谱AI,起源于清华大学计算机系知识工程实验室。该实验室于1996年成立,二十多年来一直进行机器学习、数据挖掘等AI方向的研究、工程化和应用转化,因此在成立之初,智谱AI就已经是一家“有团队、有技术、有客户”的“完成时”企业。
在大模型技术路线上,智谱AI选择自研GLM(General Language Model)路线,而非主流的GPT(Generative Pre-trained Transformer)路线,原因是希望把不同预训练模型的优势组合到一起。
另一方面,国内缺乏自己的预训练模型框架。无论是GPT、BERT,还是T5,都是西方科学家提出的底层技术,路径是被西方垄断的状态,智谱AI希望通过独特的底层框架来打破这一垄断。
在技术选型和解决方案方面,智谱AI选择直接对标OpenAI。
以基座模型GLM-4为核心,智谱AI从对话模型ChatGLM、代码模型CodeGeeX、搜索增强模型WebGLM等语言模型,到文生图模型CogView、图片理解模型CogVLM、文生视频CogVideo等多模态模型,全产品线对标OpenAI进行布局。
▲智谱AI在对话、文生图、代码等方向布局(图源:智谱AI)
但对标不等于模仿。在生态层面,智谱AI选择开闭源同时存在的打法,既通过开源收获大量社区参与推动大模型发展,保证产品的迭代和创新力;又通过闭源满足商业化需求,提供稳定、安全的企业服务。
在上个月的媒体沟通会上,智谱AI CEO张鹏谈道,之所以对标OpenAI,是因为二者追求AGI(通用人工智能)的目标是一致的。
谈及技术革新,张鹏称,在大模型时代,技术的领先性可能比过去任何一个时代中都具有更明显的碾压式效果。基于通用大模型的能力提升衍生能力,有助于找到“大模型原生应用”或者“大模型原生场景”。
近日他在央视《对话》栏目上说,今年将成为向AGI发起冲锋的起始年份,大概率可以看到比较实在的、能够解决衣食住行等现实问题的应用出现。
三、产学研用深度融合,智谱AI“三管齐下”走商业化道路
在战略布局方面,智谱AI走的是技术研发、行业落地和企业服务“三驾并驱”的道路。
在大模型时代,“产学研用”这件事被极度压缩,表现为周期变短、距离变近。张鹏在去年9月的采访中谈道,公司选择把研究和工程放在相对平等的位置上,“一边做核心的技术,一边去拓展市场。”
在学术方面,除了以平均三个月一代的速度迭代基座模型外,智谱AI团队也在不断探索不同模态的前沿技术。
上个月,智谱AI团队在最新研究成果中提出了对大模型涌现能力(Emergent)的新解读,认为涌现主要与预训练模型的损失相关,并不是大模型的专属能力,与模型大小没有直接关系。
▲智谱AI发表大模型涌现能力研究论文(图源:arXiv)
在B端,智谱AI目前已拥有超2000家生态合作伙伴、超1000个规模化应用以及200多家深度共创客户,覆盖智能汽车、金融、咨询、数字营销等行业的头部企业,从生产、营销、综合投放、销售,到转化、服务、用户体验、售后等,每个环节都积累了许多落地案例。
例如,德勤中国通过云私有部署智谱GLM系列大模型,实现智能文档解析、数据切分、信息提取等,整体员工工作效率提升10%;上汽集团基于GLM打造汽车维修AI助手,实时与维修人员交互,单轮对话抽取达到业务人员准确率的80%,多轮对话修正后达到90%准确率。
据透露,智谱AI主要采取三种方式来实现商业化落地:标准化API调取、云端私有化、完全私有化,分别面向不同类型的企业客户。智谱大模型开放平台则面向全球开发者,提供一键部署、调用、微调的能力。
在C端,智谱AI也在持续布局,其于去年8月上线的智谱清言是全国首批通过认证、面向公众开放服务的大模型应用之一,智谱大模型在开发者社群也广受好评。
今年1月,智谱AI上线了智谱清言GLMs个性化智能体定制功能,能够根据用户意图,自动理解、规划指令以完成复杂任务,用户通过简单的提示词指令即可创建属于自己的GLM智能体,大幅降低了大模型开发的门槛。
无论是B端、C端还是学术领域,大模型在本质上面临的仍是技术上的挑战。智谱AI在模型、商业、学术上多条腿走路,也赢得了市场和资本的青睐,除了阿里、腾讯、小米、腾讯等大厂加注外,还成为北京市AI产业投资基金投资的首家大模型公司。
结语:国产大模型技术创新值得期待
国产大模型正在狂秀肌肉。除了GLM系列模型外,文心一言在SuperBench测评基准上也取得了超越Llama 3的成绩;同为清华系出身的生数科技,上周刚刚推出16秒时长的高一致性、高动态性视频大模型Vidu;在Sora发布之前,已有不少国内创企率先采用了DiT架构。
近日在生成式AI大会上,许多嘉宾都谈到同一个话题:在技术创新层面,国内公司并不落后于海外,但往往最后会演变成某项技术先在国外活了,随后才被国内市场、投资领域注意到。
作为产业观察者和消费者,我们也应当更多关注国产技术的创新,期待国产大模型未来能涌现出更多适合本土用户的能力和应用。