2024年2月,OpenAI展示了Sora——一个能根据文字描述生成高质量、连贯视频的大型扩散模型。Sora展示的视频令人震惊:一位女士在东京街头漫步(雨中倒影细节完美),猛犸象在雪地奔跑,科幻城市的空中飞行器……不只是视觉上美观,更重要的是视频在物理上是自洽的——物体的惯性、光影的变化、人物的运动都符合真实世界的规律。OpenAI将Sora定义为一个”世界模拟器”,而非仅仅的视频生成工具。
【为什么重要?】
Sora意味着AI开始理解三维空间和时间的物理规律,这不只是视频创作的革命,更暗示AI正在从”语言理解”走向”世界理解”,为机器人和具身智能的发展提供了重要基础。
【逻辑闭环】
解决了什么:将生成式AI从图像(单帧)扩展到视频(时序帧),且保持了物理一致性,向”世界模型”迈出了重要一步。局限是什么:Sora生成的视频时长有限,极端物理场景仍会出现错误(手指数量、穿透现象),且训练和运行成本极高。这推动了高效视频生成技术、物理引擎与AI结合,以及具身AI(Embodied AI)和机器人的发展——真正理解物理世界的AI将彻底改变机器人和自动驾驶领域。
觉得有用?点个赞