遇见 Sora：开启视觉创造的新纪元_科技资讯

遇见 Sora：开启视觉创造的新纪元

创始人

2024-06-08 10:01:35

0次

本文共2041字，阅读约需要5分钟

想象一下，只需键入几个文字，一段对应的生动视频就能跃然眼前。这并非神笔马良的故事成真，也不是电影中的科幻桥段，而是OpenAI公司发布的全新视频生成AI大模型——Sora。它的诞生标志着人工智能技术的又一次飞跃，更开启了视频创造的新纪元。

尽管目前Sora并未开启公测，但其官网展示作品画面中的每个细节都仿佛在跳动着，充满了生命力。虽只有匆匆一瞥，但仍不难窥见其蕴含的颠覆性价值。

开局即王炸：Sora何以堪称“世界模拟器”？

OpenAI在技术报告中表示Sora能深刻地“理解”运动中的物理世界，并提出了将其打造为未来“世界模拟器”的宏大愿景。

▲Sora生成作品《tokyo-walk》

文生视频技术并非Sora首创，但为何它的发布却在全球范围内引起了轰动呢？回顾2023年，市面上大多数文生视频AI技术还停留在制作4至6秒的短视频，即便作为业界领头羊的Runway和Pika，在谈及2024年的核心目标时，也只敢保守的将这个数字延长到15秒。这是因为AI生成视频的难点在于从上一帧到下一帧的每次变换都需要对大量细节的演算把控，这包括物体和角色随时间推移连贯地匹配或修改场景元素，其中运动和交互等动态属性就需要根据现实世界的物理定律而实时发生正确的变化，因此早期大量文生“视频”作品的本质其实还是在产出以秒为单位进行简单循环的“动图”。

▲Runway官方发布AI展示作品

然而，Sora的出场即王炸则彻底颠覆了这一赛道的局面，它一举实现了让用户快速生成长达以分钟为单位的多镜头高清AI视频，并在复杂场景变换中较为稳定地模拟运动中的现实物理世界。这也是为什么只有Sora这个文生视频大模型被人们拿来和“世界模拟器”这个宏大概念相绑定。

除此之外，Sora的作品相较于同类AI文生视频，在逼真度和艺术感方面同样实现了颠覆性的提升。无论是天空中飘落的樱花与细雪，还是深思老者眼角的细纹， Sora都处理得毫无违和感。

▲Sora生成作品《closeup-man-in-glasses》

更令人印象深刻的是，Sora在视频的构图、色彩搭配和镜头运用上，展现出了电影级别的美感，这种带有深度的质感是以往的文生视频大模型作品所不具备的。

360集团创始人周鸿祎就曾多次在公开场合给予Sora极高评价。他认为，Sora实现了机器对世界的感知、观察和交互的能力，相当于为人工智能真正装上了 “眼睛”。

周鸿祎特别指出，这不仅仅是在感知层面的工作，Sora的这双“眼睛”能够在认知层面上发挥作用。这意味着Sora远不只是一个视频生成工具，它独特的认知能力为整个人工智能领域都带来了新的可能性和发展方向。

Sora的“魔法”配方：模型与优化的完美融合

从文本生成的GPT系列到创造图像的Dall·E系列，OpenAI一直在挑战AI的极限。而Sora的诞生，则是这一探索旅程的又一高光时刻，它站在扩散型变换器（Diffusion transformer）这一巨人的肩膀上，精准捕捉文本中的每一个细节，深入解读文字的灵魂，并将其逐渐转化为有意义的视觉内容。

以往文生视频领域比较常用的生成对抗式网络模型（GAN, Generative Adversarial Networks），更多地是通过量变以期形成质变，尽管AI可以不知疲倦地进行创作演练，但整个过程很难把控，一旦在某次演进中出现偏差，就容易出现“走火入魔”的情况，在错误的路上越走越远，最终输出一些意义不明的产物。

▲早期文生视频作品

同时，生成对抗式网络模型实现提升的本质是对先作的不断模仿，所以这种方式还存在缺乏创造力的特点，导致较为理想的情况也只是实现“照猫画猫”“照虎画虎”的水平。

尽管底层逻辑都是通过不间断的演练实现优化，但Sora采用的扩散型变换器模型则在大量学习先作的基础上尝试不断解读文字、图像与视频这三者之间复杂且正确的关系。简而言之，Sora不断提升的是对“美”这个概念的认识，相较于GAN型大模型，Sora更像是在“思考”，而不仅仅是尝试机械的模仿复制。

▲Sora生成作品《santorini》

在实际应用中，扩散型变换器模型通过模拟从纯噪点图像到真实图像的扩散过程，在一正一反的虚实来回中，让Sora“理解”了视觉形成原理与逻辑。当然，这个过程需要大量反复地训练学习，直到模型完全学会去除噪声并恢复图像，整个流程可以想象为修理一台雪花屏的电视机，在不断调试反复中，直到画面恢复所有细节与色彩。

那么，扩散型变换器模型既然如此强大，为什么只有OpenAI用了呢？这个问题的答案其实也很简单，通俗点说，就是虽然扩散型变换器模型的效果更好，但所需算力的资源及维护成本也非常高，并非所有厂商都能负担得起。

因此，Sora能成批量生成高达1080p分辨率视频内容这一点对于同类竞品来说是具有一定不可复制性的。Sora不仅拥有超强的学习“思考”能力，同时还具备极佳的硬件优化处理性能。通过这二者的有机结合， OpenAI才最终实现了Sora产出视频的“品控”稳定。

尽管目前的Sora还远不足以成为世界模拟器，但这款人工智能文生视频大模型，正在以一日千里的速度自我进化，为我们每个人的生活和各行各业带来了变革的新动力。

Sora的未来应用场景，如同一幅幅绚丽的画卷，正在我们面前徐徐展开。随着它的不断进化，我们无疑将步入一个更加智能、高效、个性化的新时代，这个时代将以全新的方式重塑我们创造和享受内容的方式，让未来的每一刻都闪耀着无限的可能性和惊喜。

文/本刊记者卢家傲

编辑/莘然

本文刊载于《中外企业文化》2024年4期

上一篇：“SU7冲出停车场致死伤”，小米回应

下一篇：猛犸象灭绝后，地球上发生了什么样的变化？

遇见 Sora：开启视觉创造的新纪元

相关内容

热门资讯