阿里开源WebSailor，检索性能超DeepSeek R1、Grok-3等模型_科技资讯

阿里开源WebSailor，检索性能超DeepSeek R1、Grok-3等模型

创始人

2025-07-07 17:21:46

0次

潮新闻客户端记者张云山

7月7日消息，阿里通义开源了网络智能体WebSailor，该智能体具备强大的推理和检索能力，在高难度智能体评测集BrowseComp上，WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体，一举登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源。

最近一年，大模型的信息检索和推理能力取得了巨大的进步，但面对高度不确定、线索模糊的任务时，AI的回答准确率仍处于较低水平。今年4月，OpenAI开源了浏览器检索评测集BrowseComp，旨在评测大模型和智能体的检索性能，发布数月以来，该评测集包含了1266个高难度问题，是目前难度最高的评测集之一，业界尚无开源系统取得接近闭源模型的成绩。

复杂场景的检索任务的挑战在于相关线索分散在多个网页，而且描述含糊，例如“这首与南美某首都密切相关的乐曲，其歌词作者在21世纪初获颁当地荣誉称号，其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么？”这不仅需要AI主动在广阔的互联网中搜集信息，还需要从海量内容中过滤掉无关的噪声，再通过严密得多步推理和交叉验证，才能将所有线索串联起来。　

为此，在构建数据集阶段，通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA，并基于Qwen模型进行冷启动微调，让模型学到超越人类的复杂推理模式；该团队还提出了高效的强化学习算法 DUPO，基于双阶段动态采样策略，大幅提高了训练效率，确保即使在密集工具交互的情境中，也能快速迭代模型，DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

阿里开源WebSailor性能不错（受访者供图）

英文版和中文版BrowseComp评测集的实测结果显示，WebSailor跨越了开源和闭源系统之间的鸿沟，WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先，甚至超越了DeepSeek R1、Grok-3等闭源模型，仅次于闭源的OpenAI DeepResearch。

BrowseComp评测集的实测结果（受访者供图）

尽管WebSailor仅基于高难度数据训练，但在聚焦普通任务SimpleQA的数据集上，WebSailor的表现也超越了其他方法，展现出极强的兼容性和有效性，验证了WebSailor方法的泛化能力。

自今年以来，通义实验室已开源WebWalker、WebDancer和WebSailor三个检索和推理智能体，并全部斩获SOTA（State-of-the-Art）。

上一篇：原创快递车碾碎幼童生命：孩子为何躺在地上？

下一篇：原创 WTT大满贯赛：梁靖崑为何爆冷输黑马？三方面原因令其失去先机

阿里开源WebSailor，检索性能超DeepSeek R1、Grok-3等模型

相关内容

热门资讯