新智元报道
编辑:桃子 好困
【新智元导读】马斯克的终极设想,正在成形。今天,特斯拉放出了「世界模拟器」震撼演示。一个神经网络,每天狂吞500年人类驾驶经验,并在无限的虚拟世界中自我进化。同款AI大脑,擎天柱也可共用。
一个神经网络模型,统治了一切。
今天,特斯拉官宣神经网络「世界模型器」,AI可以直接模拟、合成自动驾驶的「孪生世界」。
如下九宫格演示中,特斯拉「世界模拟器」生成了汽车行驶过程中的不同视角。
同时,一些长尾场景,诸如行人横穿马路、车辆加塞,AI都可以直接「脑补」生成。
从相同的初始视频出发,让模拟中的汽车以对抗性方式形式
以往遇到的挑战场景,「世界模拟器」能够在虚拟世界中不断试炼。
从相同的初始视频片段(绿色小方块)开始,模拟会根据新的动作集发散到不同状态
这种数据的合成,还可以通过像玩游戏一样,在模拟的世界中驾驶。
如下所示,神经网络成功合成8个摄像头、24帧/秒的连续画面,一次直出长达6分钟的逼真驾驶体验,细节还原度惊人。
通过调配算力,同一模型即可实时模拟世界
一直以来,马斯克宣称,特斯拉所打造「世界模型」是一套共用的AI大脑,并为其配上不同的「身体」——自动驾驶汽车、机器人。
没错,这个「世界模拟器」所有合成的环境,同样可以模拟多种真实场景,训练擎天柱。
擎天柱正在特斯拉的神经网络虚拟世界中穿行
擎天柱的各种不同动作,都能精准地反映在虚拟世界的模拟当中
这种无限的绝佳试炼场,正是特斯拉让FSD和擎天柱,不断精进的秘密武器。
那么,特斯拉「世界模拟器」是如何学习、训练,并用于测试的呢?
近来,在ICCV 2025主题演讲中,特斯拉AI团队的负责人Ashok Elluswamy揭开了内幕。
一个神经网络大脑,两个身体
众所周知,特斯拉利用一个「端到端」的神经网络来实现自动驾驶。
这个端到端网络处理来自多个摄像头、车辆速度等运动学信号、音频、地图及导航信息,最终生成控制车辆行驶的指令。
选择「端到端」这条技术路线,意味着什么?
要理解特斯拉在做什么,我们首先得知道,自动驾驶领域存在着两条截然不同的技术路线。
第一条路,也是绝大多数公司选择的路,可以称之为「模块化」的方法。这种方法将驾驶任务拆解成几个独立的步骤:
感知(Perception):利用激光雷达、高清摄像头等传感器,识别出道路上的所有物体——这是车,那是人,这是一条车道线。
预测(Prediction):利用感知数据,预测这些物体的下一步动向——那辆车可能会变道,那个行人可能会过马路。
规划(Planning):根据预测结果,规划出自己车辆的最佳行驶路径——应该减速,还是应该绕行。
这种方式的好处显而易见:分工明确,每个模块都可以独立开发和调试,在项目初期更容易上手。