“请把杯子拿起来”。
这句话对你来说轻而易举。因为你看到了杯子,理解了“拿起来”的含义,手自然地伸过去、捏住、提起。但对一个 AI 系统来说,这中间隔着数道几乎不可逾越的鸿沟:语言到动作、动作到视觉、视觉到空间、空间到执行。
传统做法是强迫模型学会直接映射,通过输入一段文字或一组动作参数,让其直接输出像素级的视频帧或关节角度。这种方法在受限环境和充足标注数据下勉强可行,但一旦面对真实世界的复杂性,系统就会崩溃,因为鸿沟太宽,直接跨越注定失败。
清华大学智能产业研究院赵昊团队在 CVPR 2026 发表的四篇论文,共享着同一个设计哲学:当两种模态之间的鸿沟太大,真正的解法是为它们搭桥,找到一种“第三语言”。这个“第三语言”,就是中间表示。
这四篇论文分别从动作到视频、图像到 4D 场景、首帧到未来视频、异构硬件到统一策略四个不同的角度,验证了同一个核心假设:引入合适的中间表示,比强迫模型学会直接映射更有效。
01
ORV:当机器人看视频时,它在看什么?
机器人学习领域有一个看似简单却长期未能很好解决的问题:如何让机器人通过观看人类操作视频来学习新技能?
这个问题的困难程度远超想象。对人类来说直观的东西,对机器人来说却是无法理解的数据流,因为视频是一帧帧像素,动作是七维或更高维的连续控制信号,这两种表示之间存在巨大的“表征鸿沟”。
现有的机器人视频生成方法通常采用端到端的方式:输入动作序列,直接输出对应的视频帧。这种做法在实践中面临两个根本性问题:
动作空间和像素空间的结构差异太大,动作是低维的连续向量,像素是高维的离散网格,强行让模型学习从前者到后者的直接映射,就像让一个只会说中文的人直接听懂法语,中间没有任何翻译。
缺乏结构化约束:生成的视频往往在多视角一致性上表现糟糕。同一个动作从两个不同视角看,本应是同一个 3D 事件的不同投影,但端到端模型经常会生成两个视角下完全不一致的像素。
这个问题背后有一个更深层的原因:人类在理解动作时,是在一个抽象的 3D 空间表示中进行思考,而不是通过和机器人一样通过像素去构造世界。当你看到一只手伸向杯子,你脑中构建的是一个 3D 的“手——杯关系”,如果机器人也能在这个 3D 空间表示中进行推理,那么它对动作的理解将会深刻得多。
ORV(Occupancy-centric Robot Video Generation)正是从这个洞察出发的。
它的核心思路是:在动作空间和像素空间之间,插入 Occupancy 作为中间表示,让动作先变成 4D Occupancy,再从 Occupancy 渲染成视频。
什么是 Occupancy?
它是一个结构化的 3D 表示,通过在空间中的每个体素上标记“是否被占据”,来实现对场景几何的紧凑描述。
当动作被转换成增加了时间维度的 4D Occupancy 序列,动作的空间含义就被显式地表达了出来。此时的逻辑从抽象的“关节角度变化了这么多”转变为具象的“手在 3D 空间中移动到了这里,与物体发生了这样的交互”。
同时,Occupancy 天然地解决了多视角一致性的问题:一旦拥有了 4D Occupancy,从任意视角渲染出对应的视频帧就变成了一个确定性的投影问题,从不同视角投影出的视频自然高度一致。
ORV 框架
ORV 的技术实现分为两个阶段。
第一阶段是 Action-to-Occupancy 映射:给定一个机器人动作序列,训练一个条件扩散模型,将其转换成未来若干帧的 4D Occupancy 序列。
第二阶段是 Occupancy-to-Video 渲染:利用可微分的体素渲染技术,将 4D Occupancy 序列从指定相机视角渲染成 2D 视频帧。
两步映射,每一步的鸿沟都比直接从动作到视频窄得多。
这个设计的价值很快在实验中得到了验证。ORV 在多个标准机器人视频生成 benchmark 上进行了评估,结果显示它在 FVD(Fréchet Video Distance)上比最强的端到端基线降低了 18.8%,生成的视频在视觉质量和时间一致性上都显著更优。
更有说服力的是,当把这些生成的视频用于训练机器人策略时,ORV 生成的视频帮助策略在真实机器人任务上取得了 +6.4% 的成功率提升。这 6.4% 的飞跃,本质上验证了“第三语言”假设:更好的中间表示能带来更高的生成质量,并让生成的数据对下游任务更有价值。
ORV 训练数据集整理流程
由于在 Occupancy 空间中进行推理,ORV 学到的动作-Occupancy 映射在一定程度上是物理真实的,且不依赖于特定的视觉纹理。这使得它能够在仿真环境中训练,并直接在真实机器人上生成视频,实现了 Sim-to-Real 的跨域迁移。而 Occupancy 作为可解释的结构化表示,其生成的序列可以被人类直接观察和理解,这对于机器人学习系统的调试和安全验证至关重要。
从更广阔的视角看,ORV 揭示了一个在多模态 AI 中具有普适性的设计原则:当你试图在两个差异巨大的模态之间建立映射时,不要强迫模型直接消化,而是为它们找到一种中间表示,让映射分两步走。这个原则,正是后续几篇论文共同的方法论基础。
论文链接:https://arxiv.org/abs/2506.03079
02
DGGT: 无需姿态的动态场景重建
从 NeRF 到 3D Gaussian Splatting,从单目深度估计到多视角立体视觉,3D 和 4D 重建在近年取得了令人瞩目的进展。但几乎所有方法都在默默接受一个假设:你必须知道相机的位姿。
这个假设在受控环境下是合理的,你可以预先标定好相机,或者用 COLMAP 等工具从输入图像中估计位姿。但一旦离开受控环境,在动态场景、弱纹理区域或相机快速运动时,位姿估计的误差就会直接传递到最终的重建结果中。
这主要是因为位姿估计和场景重建是两个分离的步骤,前者的误差无法被后者纠正,从而导致误差累积。
但类比人类的视觉,我们在看一组图片时,即使不知道精确的相机位姿,也能理解场景的 3D 结构。由此可见,相机位姿或许并不是 4D 重建的必要条件,它只是技术实现中的一个“便利假设”:它强行把“场景内容”和“观察视角”捆绑在了一起,而这两者其实是可分离的信息。
DGGT(Dynamic Gaussian Graph Transformer)做了一个大胆的事情——把相机位姿从“输入”变成了“输出”。它提出了一个端到端的框架,输入一组无关联的图像,可以是单目视频,也可以是多视角图像,甚至可以是完全无序的图像集合;输出两个东西:场景的 4D 动态表示,以及每张输入图像对应的相机位姿。
这个设计让模型在学会重建场景的同时,自己推断出每张图像是从哪个视角拍摄的。这听起来像是一个“不知道位姿就没法重建,不知道重建就没法估计位姿”的恶性循环,但 DGGT 通过 Transformer 架构的全局注意力机制,实现了位姿推断和场景重建的相互迭代优化。
整体架构图
DGGT 的核心表示是 Gaussian Map。每个场景被表示为一组包含位置、协方差、颜色、不透明度以及时间维度动态变化的 4D Gaussian 参数。
作为一种显式的 3D 表示,它不像 NeRF 的隐式表示那样需要体积渲染;它不仅可微、可端到端训练,而且非常高效。最重要的是,它是与相机位姿解耦的。
一旦拥有了 Gaussian Map 作为场景的 4D 表示,相机位姿的估计就简化为了一个对齐问题:通过调整相机位姿,使得从当前位姿渲染出的视图与输入图像最匹配。渲染、比较、调整位姿、调整 Gaussian Map,整个过程循环迭代,端到端地进行。
DGGT 是成为首个真正实现无位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于静态 3D 重建且需要额外约束,而 DGGT 能够同时处理动态场景和未知位姿,且不需要任何位姿标注。
更令人印象深刻的是它的泛化能力:在 Waymo 数据集上训练的 DGGT,可以直接零样本迁移到 nuScenes 数据集上进行 4D 重建,LPIPS 降低了 61.4%。这个跨数据集的泛化能力,很大程度上得益于 Gaussian Map 作为与位姿解耦的中间表示。
DGGT 的另一个精巧设计是“Lifespan Head”。在 4D 动态场景中,不同的 Gaussian 有不同的“生命周期”:墙壁和地板在整个时间序列中都存在,而移动的车辆和行人只在某些时间帧中出现。
Lifespan Head 的作用就是预测每个 Gaussian 的出现和消失时间。论文的消融实验显示,去掉该模块会导致 PSNR(峰值信噪比)下降 3.2 dB。这再次验证了中间表示的力量:引入一个专门的中间预测目标,如每个 Gaussian 的生命周期,模型能学会更好的 4D 场景动态建模。
在速度方面,传统 4D 重建方法通常需要数分钟到数小时来重建一个动态场景,而 DGGT 的前向传播只需要 0.4 秒。这种高效率意味着 DGGT 可以被部署在需要实时 4D 重建的应用场景中,例如自动驾驶的实时环境建模和机器人的实时场景理解。
只需0.4 秒的前向传播
DGGT 最深刻的启示在于:它挑战了“需要多少先验知识”这个根本问题。在传统流程中,相机内参、外参、深度图或点云等先验知识就像拐杖,虽然让问题变得可解,但也让整个系统变得脆弱。DGGT 的方向是扔掉这些拐杖,因为一个好的中间表示应该能够从数据中自己学会这些信息。
这个思想,与 ORV 的“Occupancy 作为中间表示”形成了有趣的呼应:ORV 用Occupancy 让动作和视频之间的鸿沟变窄了;DGGT 中,Gaussian Map 让图像和 4D 场景之间的鸿沟变窄了。两篇论文虽然应用场景截然不同,但共享着同一个设计哲学——找到一个与输入/输出解耦的中间表示,让复杂的问题分解成两个简单的问题。
论文链接:https://arxiv.org/abs/2512.03004
03
PAM:三级“翻译链”的精巧设计
如果要让一个 AI 模型预测“接下来会发生什么”(例如给定一张起始帧图像和一系列动作,生成接下来若干帧的视频),那你将会面临一个由几何、外观、时序交织而成的巨大组合复杂性问题。
这个被称为“视频预测”的任务极其困难,因为这些因素在像素层面高度耦合。
现有的方法大致分为两类。一类是端到端方法,直接用巨大的视频生成模型从起始帧+动作生成未来帧。Sora、VideoPoet 等大模型是这类方法的代表,它们在生成质量上令人印象深刻,但计算成本极高,生成结果的可控性也差;另一类是解耦方法,试图把视频预测分解成几个子问题,可控性更好,但子问题之间的误差会累积,手工设计的解耦方式也往往不是最优的。
PAM(Pose-Appearance-Motion)走的是一条中间路线。它设计了一个三级级联的“翻译链”,每一级解决一个相对简单的问题,每一级的输出作为下一级的输入。
第一级是Pose(姿态)预测。给定起始帧和动作序列,模型预测未来每一帧的“姿态表示”,这一级解决的是“东西会去哪”的问题,不涉及物体长什么样,只涉及它们的空间位置和姿态变化。
第二级是 Appearance(外观)迁移。给定起始帧中的真实外观信息和第一级预测的姿态序列,模型将外观信息“迁移”到每一帧的姿态上。这一级只解决“它长什么样”,不涉及运动轨迹。个姿态上”。
第三级是Motion(运动)精细化。在前两级输出的基础上,模型对像素级的动态细节(如阴影变化、遮挡处理、纹理细节)进行雕琢,解决“它怎么动”的最终质感。
这个三级级联的设计有几个精妙之处。
首先,它成功分解了组合复杂性,分开处理姿态、外观、运动比混合处理要简单得多。其次,每一级都变成了相对简单的映射问题,每一个局部映射的鸿沟都比直接端到端映射要窄得多。第三,级联设计带来了极好的可控性,你可以独立地修改姿态、更换外观或微调运动细节,每一级的输出都做到了可解释、可编辑。
“三级级联”架构图
PAM 的实验结果令人印象深刻。在分辨率方面,此前的机器人视频预测方法受限于计算成本和模型容量,通常只能生成 256×256 分辨率的视频,这个分辨率对于实际应用来说太低了,PAM 将生成分辨率提升到 480×720,像素量是此前方法的 3.3 倍到 4.5 倍,这种提升得益于级联设计分摊了计算压力。在质量上,其 FVD 相比最强基线降低了约 25%(从 38.83 降至 29.13),且推理速度不减。
但 PAM 最有说服力的实验在于对下游任务的赋能。在机器人抓取任务的测试中,使用 50% 真实数据 + 50% PAM 合成数据训练的模型,达到了与 100% 真实数据训练相当的性能。这标志着合成数据对下游任务的“可用性”终于跨过了临界点——从早期的“凑数”变成了真正“可用”。
使用不同比例真实数据的数据增强分析
PAM 还实现了与所有现有方法的本质区别:零真实首帧依赖。此前的视频预测方法都需要至少一帧真实的起始帧作为参考,而 PAM 通过将姿态、外观、运动三级完全解耦,使得即使在没有真实首帧的情况下(比如只有文字描述或者语义布局),也能生成合理的视频。它把视频预测从一个“基于参考的渲染问题”提升到了一个“从结构化表示生成视频的问题”,大大扩展了应用范围。
PAM 最值得思考的地方在于它展示了“中间表示”可以串联成链。ORV 中有一个中间表示(Occupancy),DGGT 中有一个中间表示(Gaussian Map),到了 PAM,中间表示变成了三个级联的表示(Pose → Appearance → Motion)。
这暗示了一个可能的通用设计模式:当一个直接映射的鸿沟仍然太宽时,可以尝试在中间插入多个级联的表示,让复杂性逐层分解。
这个模式在人类认知中也能找到对应,当你想象“接下来会发生什么”时,你并不是一次性地在脑海中渲染出完整的未来画面,而是先想“大概会发生什么”,再想“涉及的东西长什么样”,最后补充细节。
论文链接:https://arxiv.org/abs/2603.22193
04
UniDex:让所有灵巧手说同一种语言
灵巧手是实现通用机器人操作的关键硬件。
从 6 自由度的简单二指夹爪,到 24 自由度的 Shadow Hand,不同灵巧手有不同的自由度数量、不同的关节结构、不同的驱动方式。但这个领域有一个长期困扰研究者和工程师的问题:硬件碎片化。
为一个灵巧手训练的策略,往往无法直接迁移到另一个灵巧手上。如果想在不同硬件平台上都实现灵巧操作,基本上需要为每一个平台单独收集数据、单独训练策略,这在工程上是无法扩展的。更深层的问题在于,整个领域的研究也因硬件碎片化而各自为政,不同硬件上得到的实验结果甚至无法直接对比。
这个问题本质上也是一个“模态鸿沟”问题。不同的灵巧手虽然都旨在实现“灵巧操作”,但它们的“动作语言”完全不同。直接在两种完全无关的机械关节语言之间做映射,就像在两种完全无关的语言之间直接翻译,几乎是不可能的任务。
UniDex 提出了一个优雅的解法:设计一个统一的动作空间,让所有灵巧手都“说同一种语言”。这个统一的空间叫做 FAAS(Function-Actuator-Aligned Space)。
FAAS 不再用“关节角度”来描述灵巧手的动作,而是用“功能”来描述,比如“捏住这个物体”、“包裹住这个物体”、“用拇指和食指夹住这个物体”,这些是与具体硬件无关的高层语义。
具体来说,FAAS 对每一种灵巧手定义了一个“功能基元”集合(如 pinch、wrap、press 等),每个功能基元对应一组通过运动学逆向求解得到的关节角度配置。每种灵巧手的动作都被投影到这个共享的功能基元空间上,相当于做了一次“翻译”:把 Allegro Hand 的 16 个关节角度翻译成“它在执行哪个功能基元”,再把“这个功能基元”翻译成 Shadow Hand 的 24 个关节角度。
策略在这个统一的空间上训练并输出与硬件无关的“功能基元”,需要在具体硬件上执行时,只需将其转换成该硬件的关节角度即可。
UniDex-VLA 的概述
这个设计的精妙之处在于,它把“硬件异构性”从“策略学习阶段”推迟到了“执行阶段”。策略学习只需要在统一的 FAAS 空间中进行,不需要关心具体硬件;硬件的差异由 FAAS 的投影层来处理。这就像是你用中文写文章,需要发表时再翻译成英文、法文、日文其他语言一样,文章的核心内容只需要创作一次。
UniDex 的实验结果令人印象深刻。在一个灵巧手上训练的策略,可以直接部署到另一个完全不同的灵巧手上,无需任何微调。论文在 8 种灵巧手上验证了这种零样本跨手迁移能力,涵盖了 6 自由度到 24 自由度的广泛范围,这意味着机器人操作策略的“硬件依赖性”可以被消除。
同时,UniDex 构建了包含 50K+ 轨迹的大规模灵巧操作数据集,为全行业提供了一个宝贵的统一基准。在面对困难的多阶段工具使用任务时,UniDex 取得了 81% 的任务完成率,达到了此前方法难以企及的高度。
UniDex 的介绍
FAAS 作为中间表示的意义,与前几篇论文一脉相承。 UniDex 用 FAAS 弥合了异构硬件与统一策略之间的鸿沟。
论文链接:https://arxiv.org/abs/2603.22264
05
结语
回顾这四篇论文,一个清晰的设计模式浮现出来:当两种模态之间的鸿沟太大,直接映射注定失败。真正的解法,是为它们找到一种“第三语言”。
ORV 用 Occupancy 作为动作和视频之间的第三语言;DGGT 用 Gaussian Map 作为图像和 4D 场景之间的第三语言;PAM 用 Pose、Appearance、Motion 三级级联作为首帧和未来视频之间的第三语言;UniDex 用 FAAS 作为异构硬件和统一策略之间的第三语言。
这四篇论文不仅仅是四篇独立的 CVPR 2026 论文。它们共同指向了一个可能在多模态 AI 中具有普适性的设计原则:中间表示是消除鸿沟的系统性解法。
这个原则的实践意义是明确的:下次你面对一个多模态 AI 问题,在急着扩大模型、增加数据之前,先问问自己:这两种模态之间的鸿沟是什么?有没有一种中间表示,可以让这个鸿沟变窄?
有时候,一个好的中间表示,胜过十个更大的模型。雷峰网