哈喽,大家好,今天小睿这篇评论,主要来分析AI视觉领域的技术路线之争,强化学习如何打破传统监督式微调的能力天花板。
在AI视觉领域,有一场关于"思考权"的技术路线之争正在悄然发生。最近在AAAI 2026会议上,一篇名为LENS的论文荣获Oral推荐,这个成果让业内开始重新审视当前主流的技术路径。
文本提示图像分割这项技术,说白了就是让机器能根据你说的话,在图片里准确找到并圈出你想要的东西。这项技术在人机交互、机器人等前沿领域具有重要价值,但当前主流方法正遭遇一个难以突破的瓶颈。
当前主流的监督式微调方法本质上是静态的模式匹配,虽然在特定数据集上表现不错,但泛化能力往往有限,形成了一个难以逾越的"能力天花板"。尤其是在处理需要多步、复杂推理的未知指令时,性能会显著下降。这个问题的根源在于这些方法在训练中忽略了动态的、显式的推理过程。
强化学习路线的突围
为了打破这一能力天花板,研究团队引入了LENS框架,全称是Learning to Segment Anything with Unified Reinforced Reasoning。
LENS摒弃了静态的监督式微调,转而采用端到端的强化学习机制,将高层次的"思考"过程也就是思维链推理,与像素级的"执行"过程也就是图像分割,进行动态的联合优化。通过这种设计,LENS旨在赋予分割模型真正的、上下文感知的推理能力。
LENS框架的核心设计在于通过端到端的联合优化,彻底打破传统模型中"思考"与"执行"之间的信息壁垒。以往的方法,比如同期的Seg-Zero,采用的是非端到端的设计,先由推理模型生成边界框和点提示,再交由现成的SAM进行分割。
这种分离式流程的主要缺陷在于误差的单向传播。这意味着像Seg-Zero这样的非端到端模型是根本上脆弱的,它们的性能上限被其初始猜测的准确性所锁定。
一旦推理阶段的定位出现偏差,下游的分割模型将无法纠正,最终必然导致分割失败。相比之下,LENS通过其端到端的反馈闭环,具备了即便从不完美的初步定位中也能自我纠正的能力。
三位一体的架构设计
LENS的整体架构由三大核心组件构成,它们协同工作,实现了从高级语义理解到精确像素输出的无缝衔接。第一个组件是多模态大语言模型,作为系统的"大脑",LENS采用先进的MLLM比如Qwen2.5-VL-3B-Instruct来处理输入的图像和文本指令。
它负责生成详尽的思维链推理过程,并给出一个初步的目标边界框。这一过程不仅是定位,更是对指令的深度理解。
第二个组件是上下文模块,这是LENS的关键创新,它充当了MLLM和分割模型之间的信息高速公路。该模块由一组可学习的上下文查询和一个连接器组成,其任务是将MLLM生成的丰富推理轨迹和定位信息,转化为分割模型能够高效利用的、信息密集的分割提示。
第三个组件是分割模型,作为系统的"双手",LENS采用高性能的分割模型SAM2-Large。它接收来自上下文模块的复杂指令,并结合原始图像信息,执行精准的像素级掩码生成任务,将推理结果精确地体现在图像上。
通过这种"推理到桥接到分割"三位一体的紧密耦合架构,LENS实现了推理质量和分割精度的同步提升。这种设计使得最终的分割性能可以直接反作用于推理过程的优化,形成一个完整的闭环。
LENS框架同时在"思考推理"端也做出了改进,研究团队基于Group Relative Policy Optimization方法构建了统一强化学习奖励机制。该奖励机制是多维度的,同时监督三个层级的线索。
第一个是格式奖励,确保MLLM的输出包括推理过程和定位结果遵循预期的结构和格式一致性。第二个是边界框IoU奖励,衡量预测边界框与真实边界框之间的定位准确性。第三个是分割掩码IoU奖励,评估像素级分割掩码的质量。
通过提出的联合优化,将统一的GRPO目标与监督分割损失相结合,LENS能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS的端到端特性解决了定位错误向下游传播的问题,哪怕有些情况定位框是错的,强大的上下文查询也能带领分割模型走向正确。
性能数据说话
核心结果方面,LENS取得了文本提示分割任务的最先进性能。LENS在RefCOCO系列的基准测试中取得了81.2%的平均cIoU,达到了世界最高水平。
在GroundingSuite-Eval这类更具挑战性的零样本基准测试中,LENS展现出卓越的域外泛化能力,cIoU达到78.3%,超越第二优方法接近10%。这些成果表明,LENS这一类基于统一强化学习奖励驱动的CoT推理方法,能够显著提升文本提示下的分割能力。
从技术演进的角度看,强化学习在视觉AI领域的应用正在成为一个重要趋势。传统的监督式微调虽然在特定任务上表现不错,但面对复杂、多变的真实场景时,往往显得力不从心。
强化学习通过奖励机制,让模型在试错中不断优化,这种动态的学习方式更接近人类的思考过程。LENS框架的成功,为强化学习与视觉分割的无缝集成提供了新的思路,并有望推动更通用、更稳健的视觉语言系统的研究。