无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景
创始人
2024-06-22 10:01:40
0

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。

从任意单目视频重建可渲染的动态场景是计算机视觉研究领域的一个圣杯。本文中,宾夕法尼亚大学和斯坦福大学研究团队尝试向这一目标迈进一小步。

互联网上有海量单目视频,其中蕴含了大量物理世界的信息,但三维视觉仍缺乏行之有效的手段,将三维动态信息从这些视频中提取出来,从而支撑未来三维大模型建模及理解动态物理世界。尽管重要,这个反问题极具挑战性。

  • 其一,真实拍摄的二维视频往往缺乏多视角信息,因此不能利用多视角几何进行三维重建,甚至在很多情况下无法通过已有软件(如 COLMAP)求解相机位姿和内参。
  • 其二,动态场景的自由度极高,其变形和长时间信息融合的四维表示仍然不成熟,使这一困难的反问题更加复杂。

本文提出了一种新颖的神经信息处理系统 —— 摩斯卡 (MoSca),只需提供一连串视频帧图片,无需任何额外信息,即可从 SORA 生成的视频、电影电视剧片段、互联网视频和公开数据集的单目野生 (in-the-wild) 视频中重建可渲染的动态场景。

  • ArXiv地址: https://arxiv.org/pdf/2405.17421
  • 代码 (近期将开源):www.github.com/JiahuiLei/MoSca
  • 项目网站: www.cis.upenn.edu/~leijh/projects/mosca/
  • 视频 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

以下为视频Demo。

方法概览

为了克服上述的困难,摩斯卡首先利用了存储在计算机视觉基石模型 (foundation models) 中的强先验知识将问题解空间缩小。

具体而言,摩斯卡利用了单目有尺度的深度估计 (mono metric-depth) 模型 UniDepth、 视频任一点长时间跟踪 (track any point) 模型 CoTracker、光流估计 (optical flow) 模型 RAFT 计算出的对极几何误差 (epipolar error), 以及预训练语义模型 DINO-v2 提供的语义特征。详参论文 3.1 章节.

我们观察到,大多数真实世界的动态变形本质上都是紧凑和稀疏的,其复杂度往往远低于真实几何结构的复杂度。比如,一个硬物体的运动可以用旋转和平移表示,一个人的运动大致可以用多个关节的旋转平移近似。

基于这一观察,本文提出了一种新颖的紧凑动态场景表示 —— 四维运动脚手架 (4D Motion Scaffold),将上述基石模型输出从二维提升至四维并进行融合,同时也融入物理启发的变形正则化 (ARAP) 。

四维运动脚手架是一个图,图的每一个节点是一串刚体运动 (SE (3)) 轨迹,图的拓扑结构是全局考虑刚体运动轨迹曲线距离而构建的最近邻边。通过使用对偶四元数 (dual-quaternion) 在时空中平滑插值图上节点的刚体轨迹,可表示空间中任意一点的变形。这一表示大大简化了需解的运动参数。(详见论文 3.2 章节)。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922990&idx=5&sn=cdb4c802d5f859f213409b4120fbc22d&chksm=84e41b90b3939286316465540103e74b16aff5264d68e61b2c050e447a3d8d80b7ef518db72c&token=352761123&lang=zh_CN#rd

四维运动脚手架的另一个巨大优势在于可以直接被单目深度和视频二维点跟踪初始化,再通过高效的物理正则项优化求解出未知的遮挡点位置以及局部坐标系方向。详参论文 3.3 章节.

有了四维运动脚手架,任何时刻的任何一点都可以被变形到任意目标时刻,这让全局融合观测信息变得可能。具体而言,视频每一帧都可以利用估计的深度图反投影到三维空间并初始化三维高斯 (3DGS)。这些高斯被「绑定」在四维运动脚手架上,自由穿梭于任何时刻。想要渲染某一时刻的场景,只需将全局所有其他时刻的高斯通过四维脚手架传送到当前时刻融合即可。这一基于四维运动脚手架和高斯的动态场景表示可高效地被高斯渲染器优化(详见论文 3.4 章节)。

最后值得一提的是,摩斯卡是一个无需相机内外参的系统。通过利用上述基石模型输出的对极几何误差确定静态背景掩码,利用基石模型输出的深度和点跟踪,摩斯卡可以高效地优化重投影误差,求解全局集束优化 (bundle adjustment),从而直接输出相机内参和位姿,并通过后续的渲染持续优化相机(详见论文 3.5 章节)。

实验结果

摩斯卡可以在 DAVIS 数据集视频中重建动态场景。值得注意的是,摩斯卡可灵活支持多种基于高斯的渲染器。除了原生的 3DGS 渲染器,本文还测试了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如图中最右列的火车,GOF 可渲染出更高质量的 normal 和 depth。

摩斯卡在极具挑战性的 IPhone DyCheck 数据集上取得了显著提升,同时也在广泛对比的 Nvidia 数据集上对比了其他方法。

相关内容

热门资讯

6千名英法联军攻陷北京,曾国藩... 1860年,英国和法国联合组成了2万人的军队,从大沽口登陆,直接向北京进军。为了抵抗英法联军的进攻,...
经济观察丨“十五五”时期中国如... 中新社北京12月18日电 (记者 刘亮)明年是中国“十五五”开局之年,前不久召开的中央经济工作会议在...
杭汽轮B:已具备50MW内超临... 证券之星消息,杭汽轮B(200771)12月18日在投资者关系平台上答复投资者关心的问题。 投资者提...
爱迪特:构建口腔智慧新生态 证券之星消息,爱迪特(301580)12月18日在投资者关系平台上答复投资者关心的问题。 投资者:你...
MaaS做到第一后,火山下一步... “Agent Infra 之战,被火山推上了新高度。” 作者丨林觉民 编辑丨Kash 云厂商突围,今...
字节跳动正推进与多家厂商的AI... 图片来自界面图库 界面新闻记者 | 李家琦 界面新闻编辑 | 文姝琪 12月19日,界面新闻...
如何推动投资止跌回稳?丨落实会... 编者按: 日前召开的中央经济工作会议,明确了明年经济工作的总体要求和政策取向,部署了明年经济工作“八...
四年600万辆 比亚迪“海洋速... 2025年12月15日,深圳,一场以“奔涌”为主题的盛典汇聚了来自全国的“海粉”与媒体。比亚迪海洋网...
假日退货潮来袭 UPS部署人工... 来源:环球市场播报 美国联合包裹运送服务公司(UPS)旗下逆向物流公司指出,美国零售商品退货退款案例...
《非公开发行公司债券项目承接负... 11月12日消息,从业内获悉,中国证券业协会近期结合债券业务发展和监管实践,组织修订了《非公开发行公...