寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟

寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026

创始人

2026-05-22 14:28:29

0次

“请把杯子拿起来”。

这句话对你来说轻而易举。因为你看到了杯子，理解了“拿起来”的含义，手自然地伸过去、捏住、提起。但对一个 AI 系统来说，这中间隔着数道几乎不可逾越的鸿沟：语言到动作、动作到视觉、视觉到空间、空间到执行。

传统做法是强迫模型学会直接映射，通过输入一段文字或一组动作参数，让其直接输出像素级的视频帧或关节角度。这种方法在受限环境和充足标注数据下勉强可行，但一旦面对真实世界的复杂性，系统就会崩溃，因为鸿沟太宽，直接跨越注定失败。

清华大学智能产业研究院赵昊团队在 CVPR 2026 发表的四篇论文，共享着同一个设计哲学：当两种模态之间的鸿沟太大，真正的解法是为它们搭桥，找到一种“第三语言”。这个“第三语言”，就是中间表示。

这四篇论文分别从动作到视频、图像到 4D 场景、首帧到未来视频、异构硬件到统一策略四个不同的角度，验证了同一个核心假设：引入合适的中间表示，比强迫模型学会直接映射更有效。

ORV：当机器人看视频时，它在看什么？

机器人学习领域有一个看似简单却长期未能很好解决的问题：如何让机器人通过观看人类操作视频来学习新技能？

这个问题的困难程度远超想象。对人类来说直观的东西，对机器人来说却是无法理解的数据流，因为视频是一帧帧像素，动作是七维或更高维的连续控制信号，这两种表示之间存在巨大的“表征鸿沟”。

现有的机器人视频生成方法通常采用端到端的方式：输入动作序列，直接输出对应的视频帧。这种做法在实践中面临两个根本性问题：

动作空间和像素空间的结构差异太大，动作是低维的连续向量，像素是高维的离散网格，强行让模型学习从前者到后者的直接映射，就像让一个只会说中文的人直接听懂法语，中间没有任何翻译。
缺乏结构化约束：生成的视频往往在多视角一致性上表现糟糕。同一个动作从两个不同视角看，本应是同一个 3D 事件的不同投影，但端到端模型经常会生成两个视角下完全不一致的像素。

这个问题背后有一个更深层的原因：人类在理解动作时，是在一个抽象的 3D 空间表示中进行思考，而不是通过和机器人一样通过像素去构造世界。当你看到一只手伸向杯子，你脑中构建的是一个 3D 的“手——杯关系”，如果机器人也能在这个 3D 空间表示中进行推理，那么它对动作的理解将会深刻得多。

ORV（Occupancy-centric Robot Video Generation）正是从这个洞察出发的。

它的核心思路是：在动作空间和像素空间之间，插入 Occupancy 作为中间表示，让动作先变成 4D Occupancy，再从 Occupancy 渲染成视频。

什么是 Occupancy？

它是一个结构化的 3D 表示，通过在空间中的每个体素上标记“是否被占据”，来实现对场景几何的紧凑描述。

当动作被转换成增加了时间维度的 4D Occupancy 序列，动作的空间含义就被显式地表达了出来。此时的逻辑从抽象的“关节角度变化了这么多”转变为具象的“手在 3D 空间中移动到了这里，与物体发生了这样的交互”。

同时，Occupancy 天然地解决了多视角一致性的问题：一旦拥有了 4D Occupancy，从任意视角渲染出对应的视频帧就变成了一个确定性的投影问题，从不同视角投影出的视频自然高度一致。

ORV 框架

ORV 的技术实现分为两个阶段。

第一阶段是 Action-to-Occupancy 映射：给定一个机器人动作序列，训练一个条件扩散模型，将其转换成未来若干帧的 4D Occupancy 序列。
第二阶段是 Occupancy-to-Video 渲染：利用可微分的体素渲染技术，将 4D Occupancy 序列从指定相机视角渲染成 2D 视频帧。

两步映射，每一步的鸿沟都比直接从动作到视频窄得多。

这个设计的价值很快在实验中得到了验证。ORV 在多个标准机器人视频生成 benchmark 上进行了评估，结果显示它在 FVD（Fréchet Video Distance）上比最强的端到端基线降低了 18.8%，生成的视频在视觉质量和时间一致性上都显著更优。

更有说服力的是，当把这些生成的视频用于训练机器人策略时，ORV 生成的视频帮助策略在真实机器人任务上取得了 +6.4% 的成功率提升。这 6.4% 的飞跃，本质上验证了“第三语言”假设：更好的中间表示能带来更高的生成质量，并让生成的数据对下游任务更有价值。

ORV 训练数据集整理流程

由于在 Occupancy 空间中进行推理，ORV 学到的动作-Occupancy 映射在一定程度上是物理真实的，且不依赖于特定的视觉纹理。这使得它能够在仿真环境中训练，并直接在真实机器人上生成视频，实现了 Sim-to-Real 的跨域迁移。而 Occupancy 作为可解释的结构化表示，其生成的序列可以被人类直接观察和理解，这对于机器人学习系统的调试和安全验证至关重要。

从更广阔的视角看，ORV 揭示了一个在多模态 AI 中具有普适性的设计原则：当你试图在两个差异巨大的模态之间建立映射时，不要强迫模型直接消化，而是为它们找到一种中间表示，让映射分两步走。这个原则，正是后续几篇论文共同的方法论基础。

论文链接：https://arxiv.org/abs/2506.03079

DGGT：无需姿态的动态场景重建

从 NeRF 到 3D Gaussian Splatting，从单目深度估计到多视角立体视觉，3D 和 4D 重建在近年取得了令人瞩目的进展。但几乎所有方法都在默默接受一个假设：你必须知道相机的位姿。

这个假设在受控环境下是合理的，你可以预先标定好相机，或者用 COLMAP 等工具从输入图像中估计位姿。但一旦离开受控环境，在动态场景、弱纹理区域或相机快速运动时，位姿估计的误差就会直接传递到最终的重建结果中。

这主要是因为位姿估计和场景重建是两个分离的步骤，前者的误差无法被后者纠正，从而导致误差累积。

但类比人类的视觉，我们在看一组图片时，即使不知道精确的相机位姿，也能理解场景的 3D 结构。由此可见，相机位姿或许并不是 4D 重建的必要条件，它只是技术实现中的一个“便利假设”：它强行把“场景内容”和“观察视角”捆绑在了一起，而这两者其实是可分离的信息。

DGGT（Dynamic Gaussian Graph Transformer）做了一个大胆的事情——把相机位姿从“输入”变成了“输出”。它提出了一个端到端的框架，输入一组无关联的图像，可以是单目视频，也可以是多视角图像，甚至可以是完全无序的图像集合；输出两个东西：场景的 4D 动态表示，以及每张输入图像对应的相机位姿。

这个设计让模型在学会重建场景的同时，自己推断出每张图像是从哪个视角拍摄的。这听起来像是一个“不知道位姿就没法重建，不知道重建就没法估计位姿”的恶性循环，但 DGGT 通过 Transformer 架构的全局注意力机制，实现了位姿推断和场景重建的相互迭代优化。

整体架构图

DGGT 的核心表示是 Gaussian Map。每个场景被表示为一组包含位置、协方差、颜色、不透明度以及时间维度动态变化的 4D Gaussian 参数。

作为一种显式的 3D 表示，它不像 NeRF 的隐式表示那样需要体积渲染；它不仅可微、可端到端训练，而且非常高效。最重要的是，它是与相机位姿解耦的。

一旦拥有了 Gaussian Map 作为场景的 4D 表示，相机位姿的估计就简化为了一个对齐问题：通过调整相机位姿，使得从当前位姿渲染出的视图与输入图像最匹配。渲染、比较、调整位姿、调整 Gaussian Map，整个过程循环迭代，端到端地进行。

DGGT 是成为首个真正实现无位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于静态 3D 重建且需要额外约束，而 DGGT 能够同时处理动态场景和未知位姿，且不需要任何位姿标注。

更令人印象深刻的是它的泛化能力：在 Waymo 数据集上训练的 DGGT，可以直接零样本迁移到 nuScenes 数据集上进行 4D 重建，LPIPS 降低了 61.4%。这个跨数据集的泛化能力，很大程度上得益于 Gaussian Map 作为与位姿解耦的中间表示。

DGGT 的另一个精巧设计是“Lifespan Head”。在 4D 动态场景中，不同的 Gaussian 有不同的“生命周期”：墙壁和地板在整个时间序列中都存在，而移动的车辆和行人只在某些时间帧中出现。

Lifespan Head 的作用就是预测每个 Gaussian 的出现和消失时间。论文的消融实验显示，去掉该模块会导致 PSNR（峰值信噪比）下降 3.2 dB。这再次验证了中间表示的力量：引入一个专门的中间预测目标，如每个 Gaussian 的生命周期，模型能学会更好的 4D 场景动态建模。

在速度方面，传统 4D 重建方法通常需要数分钟到数小时来重建一个动态场景，而 DGGT 的前向传播只需要 0.4 秒。这种高效率意味着 DGGT 可以被部署在需要实时 4D 重建的应用场景中，例如自动驾驶的实时环境建模和机器人的实时场景理解。

只需0.4 秒的前向传播

DGGT 最深刻的启示在于：它挑战了“需要多少先验知识”这个根本问题。在传统流程中，相机内参、外参、深度图或点云等先验知识就像拐杖，虽然让问题变得可解，但也让整个系统变得脆弱。DGGT 的方向是扔掉这些拐杖，因为一个好的中间表示应该能够从数据中自己学会这些信息。

这个思想，与 ORV 的“Occupancy 作为中间表示”形成了有趣的呼应：ORV 用Occupancy 让动作和视频之间的鸿沟变窄了；DGGT 中，Gaussian Map 让图像和 4D 场景之间的鸿沟变窄了。两篇论文虽然应用场景截然不同，但共享着同一个设计哲学——找到一个与输入/输出解耦的中间表示，让复杂的问题分解成两个简单的问题。

论文链接：https://arxiv.org/abs/2512.03004

PAM：三级“翻译链”的精巧设计

如果要让一个 AI 模型预测“接下来会发生什么”（例如给定一张起始帧图像和一系列动作，生成接下来若干帧的视频），那你将会面临一个由几何、外观、时序交织而成的巨大组合复杂性问题。

这个被称为“视频预测”的任务极其困难，因为这些因素在像素层面高度耦合。

现有的方法大致分为两类。一类是端到端方法，直接用巨大的视频生成模型从起始帧+动作生成未来帧。Sora、VideoPoet 等大模型是这类方法的代表，它们在生成质量上令人印象深刻，但计算成本极高，生成结果的可控性也差；另一类是解耦方法，试图把视频预测分解成几个子问题，可控性更好，但子问题之间的误差会累积，手工设计的解耦方式也往往不是最优的。

PAM（Pose-Appearance-Motion）走的是一条中间路线。它设计了一个三级级联的“翻译链”，每一级解决一个相对简单的问题，每一级的输出作为下一级的输入。

第一级是Pose（姿态）预测。给定起始帧和动作序列，模型预测未来每一帧的“姿态表示”，这一级解决的是“东西会去哪”的问题，不涉及物体长什么样，只涉及它们的空间位置和姿态变化。
第二级是 Appearance（外观）迁移。给定起始帧中的真实外观信息和第一级预测的姿态序列，模型将外观信息“迁移”到每一帧的姿态上。这一级只解决“它长什么样”，不涉及运动轨迹。个姿态上”。
第三级是Motion（运动）精细化。在前两级输出的基础上，模型对像素级的动态细节（如阴影变化、遮挡处理、纹理细节）进行雕琢，解决“它怎么动”的最终质感。

这个三级级联的设计有几个精妙之处。

首先，它成功分解了组合复杂性，分开处理姿态、外观、运动比混合处理要简单得多。其次，每一级都变成了相对简单的映射问题，每一个局部映射的鸿沟都比直接端到端映射要窄得多。第三，级联设计带来了极好的可控性，你可以独立地修改姿态、更换外观或微调运动细节，每一级的输出都做到了可解释、可编辑。

“三级级联”架构图

PAM 的实验结果令人印象深刻。在分辨率方面，此前的机器人视频预测方法受限于计算成本和模型容量，通常只能生成 256×256 分辨率的视频，这个分辨率对于实际应用来说太低了，PAM 将生成分辨率提升到 480×720，像素量是此前方法的 3.3 倍到 4.5 倍，这种提升得益于级联设计分摊了计算压力。在质量上，其 FVD 相比最强基线降低了约 25%（从 38.83 降至 29.13），且推理速度不减。

但 PAM 最有说服力的实验在于对下游任务的赋能。在机器人抓取任务的测试中，使用 50% 真实数据 + 50% PAM 合成数据训练的模型，达到了与 100% 真实数据训练相当的性能。这标志着合成数据对下游任务的“可用性”终于跨过了临界点——从早期的“凑数”变成了真正“可用”。

使用不同比例真实数据的数据增强分析

PAM 还实现了与所有现有方法的本质区别：零真实首帧依赖。此前的视频预测方法都需要至少一帧真实的起始帧作为参考，而 PAM 通过将姿态、外观、运动三级完全解耦，使得即使在没有真实首帧的情况下（比如只有文字描述或者语义布局），也能生成合理的视频。它把视频预测从一个“基于参考的渲染问题”提升到了一个“从结构化表示生成视频的问题”，大大扩展了应用范围。

PAM 最值得思考的地方在于它展示了“中间表示”可以串联成链。ORV 中有一个中间表示（Occupancy），DGGT 中有一个中间表示（Gaussian Map），到了 PAM，中间表示变成了三个级联的表示（Pose → Appearance → Motion）。

这暗示了一个可能的通用设计模式：当一个直接映射的鸿沟仍然太宽时，可以尝试在中间插入多个级联的表示，让复杂性逐层分解。

这个模式在人类认知中也能找到对应，当你想象“接下来会发生什么”时，你并不是一次性地在脑海中渲染出完整的未来画面，而是先想“大概会发生什么”，再想“涉及的东西长什么样”，最后补充细节。

论文链接：https://arxiv.org/abs/2603.22193

UniDex：让所有灵巧手说同一种语言

灵巧手是实现通用机器人操作的关键硬件。

从 6 自由度的简单二指夹爪，到 24 自由度的 Shadow Hand，不同灵巧手有不同的自由度数量、不同的关节结构、不同的驱动方式。但这个领域有一个长期困扰研究者和工程师的问题：硬件碎片化。

为一个灵巧手训练的策略，往往无法直接迁移到另一个灵巧手上。如果想在不同硬件平台上都实现灵巧操作，基本上需要为每一个平台单独收集数据、单独训练策略，这在工程上是无法扩展的。更深层的问题在于，整个领域的研究也因硬件碎片化而各自为政，不同硬件上得到的实验结果甚至无法直接对比。

这个问题本质上也是一个“模态鸿沟”问题。不同的灵巧手虽然都旨在实现“灵巧操作”，但它们的“动作语言”完全不同。直接在两种完全无关的机械关节语言之间做映射，就像在两种完全无关的语言之间直接翻译，几乎是不可能的任务。

UniDex 提出了一个优雅的解法：设计一个统一的动作空间，让所有灵巧手都“说同一种语言”。这个统一的空间叫做 FAAS（Function-Actuator-Aligned Space）。

FAAS 不再用“关节角度”来描述灵巧手的动作，而是用“功能”来描述，比如“捏住这个物体”、“包裹住这个物体”、“用拇指和食指夹住这个物体”，这些是与具体硬件无关的高层语义。

具体来说，FAAS 对每一种灵巧手定义了一个“功能基元”集合（如 pinch、wrap、press 等），每个功能基元对应一组通过运动学逆向求解得到的关节角度配置。每种灵巧手的动作都被投影到这个共享的功能基元空间上，相当于做了一次“翻译”：把 Allegro Hand 的 16 个关节角度翻译成“它在执行哪个功能基元”，再把“这个功能基元”翻译成 Shadow Hand 的 24 个关节角度。

策略在这个统一的空间上训练并输出与硬件无关的“功能基元”，需要在具体硬件上执行时，只需将其转换成该硬件的关节角度即可。

UniDex-VLA 的概述

这个设计的精妙之处在于，它把“硬件异构性”从“策略学习阶段”推迟到了“执行阶段”。策略学习只需要在统一的 FAAS 空间中进行，不需要关心具体硬件；硬件的差异由 FAAS 的投影层来处理。这就像是你用中文写文章，需要发表时再翻译成英文、法文、日文其他语言一样，文章的核心内容只需要创作一次。

UniDex 的实验结果令人印象深刻。在一个灵巧手上训练的策略，可以直接部署到另一个完全不同的灵巧手上，无需任何微调。论文在 8 种灵巧手上验证了这种零样本跨手迁移能力，涵盖了 6 自由度到 24 自由度的广泛范围，这意味着机器人操作策略的“硬件依赖性”可以被消除。

同时，UniDex 构建了包含 50K+ 轨迹的大规模灵巧操作数据集，为全行业提供了一个宝贵的统一基准。在面对困难的多阶段工具使用任务时，UniDex 取得了 81% 的任务完成率，达到了此前方法难以企及的高度。

UniDex 的介绍

FAAS 作为中间表示的意义，与前几篇论文一脉相承。 UniDex 用 FAAS 弥合了异构硬件与统一策略之间的鸿沟。

论文链接：https://arxiv.org/abs/2603.22264

结语

回顾这四篇论文，一个清晰的设计模式浮现出来：当两种模态之间的鸿沟太大，直接映射注定失败。真正的解法，是为它们找到一种“第三语言”。

ORV 用 Occupancy 作为动作和视频之间的第三语言；DGGT 用 Gaussian Map 作为图像和 4D 场景之间的第三语言；PAM 用 Pose、Appearance、Motion 三级级联作为首帧和未来视频之间的第三语言；UniDex 用 FAAS 作为异构硬件和统一策略之间的第三语言。

这四篇论文不仅仅是四篇独立的 CVPR 2026 论文。它们共同指向了一个可能在多模态 AI 中具有普适性的设计原则：中间表示是消除鸿沟的系统性解法。

这个原则的实践意义是明确的：下次你面对一个多模态 AI 问题，在急着扩大模型、增加数据之前，先问问自己：这两种模态之间的鸿沟是什么？有没有一种中间表示，可以让这个鸿沟变窄？

有时候，一个好的中间表示，胜过十个更大的模型。雷峰网

機器人語言序列鴻溝空間模型問題視頻視角動作靈巧手位姿

上一篇：透视了解！新超凡软件辅助，嘟咪互动修改器-切实真的有辅助技巧（哔哩哔哩）

下一篇：第4分钟了解！威信茶馆app破解版，兴动互娱修改器免费，法门教程（有挂教程）-哔哩哔哩

寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026

相关内容

热门资讯

寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟 ｜ CVPR 2026

相关内容

热门资讯

寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026