字节开源多模态智能体UI-TARS-1.5 重点强化高阶推理能力
创始人
2025-04-19 07:01:57
0

【太平洋科技快讯】近日,字节跳动旗下Seed实验室正式发布并开源了新一代多模态智能体UI-TARS-1.5。该智能体基于视觉-语言模型构建,具备在虚拟世界中高效执行各类任务的能力,并较前代版本显著增强了高阶推理能力。

UI-TARS-1.5 在字节跳动此前提出的原生智能体方案 UI-TARS 的基础上,引入了强化学习技术,进一步提升了模型的高阶推理能力。这使得 UI-TARS-1.5 能够在执行任务前进行深思熟虑,从而更有效地规划行动步骤,提升任务执行的效率和准确性。

UI-TARS-1.5 的强大能力源于四个维度的技术:

视觉感知增强: 通过大规模界面截图数据的训练,模型能够深入理解界面元素的语义和上下文信息,形成对界面元素的精准描述,为后续的决策提供可靠的信息基础。

System 2 推理机制: UI-TARS-1.5 引入了 System 2 推理机制,能够在执行动作前生成“思维”(thought),支持对复杂任务进行多步规划和决策,类似于人类的深思熟虑过程。

统一动作建模: 通过构建跨平台的标准动作空间,并结合真实轨迹学习,UI-TARS-1.5 能够更加精准地控制动作的执行,提高动作的可控性和执行精度。

可自我演化的训练范式: UI-TARS-1.5 采用了自动化的交互轨迹采集和反思式训练机制,使模型能够持续从错误中学习,不断改进自身,以适应复杂多变的任务环境。

此外,UI-TARS-1.5 的研发团队该提出了一个全新的愿景:以游戏为载体来增强基础模型的推理能力。相比于数学、编程等领域,游戏更多地依赖于直观的、常识性的推理,而对专业知识的依赖较少。因此,游戏成为了评估和提升未来模型通用能力的理想测试场景。

UI-TARS-1.5 不仅是一个理论上的智能体,更是一个具备实际操作能力的“数字助手”。作为一个原生 GUI 智能体,它能够真实地操作电脑和系统,操控浏览器,并完成各种复杂的交互任务。

相关内容

热门资讯

机器人、光模块、芯片,AI企业... 12月17日,广州举办“十四五”建设现代产业体系新闻发布会。会上数据显示,在推动“数转”“智改”“网...
消息称苹果iPhone 17e... IT之家 12 月 17 日消息,科技媒体 The Information 昨日(12 月 16 日...
合肥蜀山区如何让“寸土”生“寸... 近日,安徽省亩均效益评价联席会议办公室正式公布2025年安徽省制造业企业、县(市、区)、开发区亩均效...
上蔡供电公司:深化地址数据治理... 大象新闻记者 周文德 通讯员 于亚洲 唐培森 为全面提升数据质量,支撑电网精准管理,12月15日,...
盐城射阳60亿元新材料项目加速... 仲冬时节,寒意虽浓,却难掩企业火热的发展势头。近日,在射阳港经济开发区,江苏京奕绿能新材料科技有限公...
原创 A... 文/杨剑勇 沐曦股份以700的元开盘,相较于发行价(104.66元)上涨568%,上午最高涨幅更是达...
收购扫地机器人鼻祖,深圳如何“... 文|无相财经 12月15日,美国扫地机器人行业开创者iRobot宣布进入破产程序,解救它的重组企业...