阿里开源WebSailor,检索性能超DeepSeek R1、Grok-3等模型
创始人
2025-07-07 17:21:46
0

潮新闻客户端 记者 张云山

7月7日消息,阿里通义开源了网络智能体WebSailor,该智能体具备强大的推理和检索能力,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源。

最近一年,大模型的信息检索和推理能力取得了巨大的进步,但面对高度不确定、线索模糊的任务时,AI的回答准确率仍处于较低水平。今年4月,OpenAI开源了浏览器检索评测集BrowseComp,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了1266个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。

复杂场景的检索任务的挑战在于相关线索分散在多个网页,而且描述含糊,例如“这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?”这不仅需要AI主动在广阔的互联网中搜集信息,还需要从海量内容中过滤掉无关的噪声,再通过严密得多步推理和交叉验证,才能将所有线索串联起来。 

为此,在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式;该团队还提出了高效的强化学习算法 DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

阿里开源WebSailor性能不错(受访者供图)

英文版和中文版BrowseComp评测集的实测结果显示,WebSailor跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先,甚至超越了DeepSeek R1、Grok-3等闭源模型,仅次于闭源的OpenAI DeepResearch。

BrowseComp评测集的实测结果(受访者供图)

尽管WebSailor仅基于高难度数据训练,但在聚焦普通任务SimpleQA的数据集上,WebSailor的表现也超越了其他方法,展现出极强的兼容性和有效性,验证了WebSailor方法的泛化能力。

自今年以来,通义实验室已开源WebWalker、WebDancer和WebSailor三个检索和推理智能体,并全部斩获SOTA(State-of-the-Art)。

相关内容

热门资讯

原创 智... 智能电表行业已驶入发展“快车道”。 在“双碳”目标的引领下,我国电力行业加速构建新型电力系统,成功实...
三水4个农作物病虫害监测点投入... 在省市农业农村部门指导支持下, 三水区承担了2025年广东省农作物病虫疫情田间监测点建设项目,共建设...
原创 三... 三国蜀汉,最早从214年刘备入川开始算,亡于263年魏军钟会、邓艾入蜀。在蜀汉之后,还有多个蜀国,比...
三万人共赴阜平“红色村超”:足... 人民网石家庄7月7日电 (记者赵明妍)奥运冠军钱红以及河北保定、阜平当地的先进代表人物和贵州“村超”...
安排“代理人”收受保管贿款如何... 实践中,有的国家工作人员为了规避被查处,安排“代理人”出面参与协商、收受、保管贿款,且案发时行贿人尚...
路透社揭密中国车企如何超越大众... 编译 | 杨玉科 编辑 | 李国政 出品 | 帮宁工作室(gbngzs) 2023年10月,奇瑞汽车...
有3次犯罪前科的他,是如何当上... 山西省洪洞县财政局原局长付雪海的“离奇履历”,引发关注。 刑事判决书显示,这位曾掌管地方财政大权的官...
101/汇文/十一晋元……25... ·北京新初一家长必看 最近不少新初一家长收到了入学报到通知,有些家长一并收到了孩子的入学FB测通知。...
深度剖析:家庭教育如何影响孩子... 家庭教育是孩子成长的基石,对塑造感恩心态起着至关重要的作用。 父母的言行是孩子最直接的榜样。在日常生...