NVIDIA Cosmos:面向物理AI的开源世界模型(10K+星标)

NVIDIA Cosmos 是一个开源的世界模型平台,包含数据集和工具,用于构建物理AI——机器人、自动驾驶汽车、智能基础设施。Cosmos 3 采用混合Transformer架构,统一支持语言、图像、视频、音频和行动生成。提供16B和64B两种模型。

  • ⭐ 10117
  • 更新于 2026-06-13

NVIDIA Cosmos 平台

NVIDIA Cosmos:面向物理AI的开源世界模型(10K+星标) #

想象一下,如果你能预测物理世界的运作方式——不是通过模拟物理方程,而是直接从世界中学习——会怎样?

NVIDIA Cosmos 正是为此而生:它是一个开源的世界模型平台,经过专门训练以理解和生成物理世界。它不仅仅是生成机器人运动的图像——它能够预测运动背后的物理规律、时间节奏以及因果关系。

Cosmos 3 是 NVIDIA 最新的模型家族,基于统一的混合Transformer(MoT)架构,能够同时处理语言、图像、视频、音频和行动序列。它提供两种运行模式:推理器(用于世界理解和规划)和生成器(用于世界模拟和合成数据创建)。

模型参数量从16B(Nano)到64B(Super)不等,可在 HuggingFace 上获取。这是下一代物理AI的基础设施——涵盖机器人、自动驾驶汽车和智能基础设施。

什么是 NVIDIA Cosmos? #

NVIDIA Cosmos 是一个面向构建物理AI系统的世界模型、数据集和工具的开放平台。它超越了传统AI的能力边界:

传统AI:              Cosmos:
  输入 → 输出       →  输入 → 推理 → 输出
  (图片进入,        (理解物理规律,
   描述出来)         预测未来,
                     生成行动)

核心能力:

  • 世界理解:分析视频和图像,生成描述、时序事件、下一步行动、空间定位、物理合理性分析和因果推理
  • 世界生成:从文本、图像、视频或行动输入中生成图像、视频、同步声音和行动驱动的视频序列
  • 行动建模:预测策略行动、逆向动力学和正向动力学,应用于机器人、相机运动、第一人称运动和自动驾驶

Cosmos 3 模型家族包括:

模型规模能力
Cosmos3-Nano16B紧凑型多模态模型,用于理解和模拟
Cosmos3-Super64B前沿规模模型,用于高级多模态任务
Cosmos3-Super-Text2Image64B高保真文本到图像生成
Cosmos3-Super-Image2Video64B时间一致的视频生成
Cosmos3-Nano-Policy-DROID16B面向DROID操作的视觉语言机器人策略

模型架构:混合Transformer #

Cosmos 3 采用了统一的**混合Transformer(MoT)**架构,融合了两种核心技术:

  1. 自回归(AR)Transformer 用于推理——通过因果自注意力机制处理语言和视频Token,进行下一个Token预测
  2. 扩散Transformer(DM) 用于生成——通过全注意力机制对图像、视频、音频和行动Token进行去噪处理
┌─────────────────────────────────────────────┐
│         Cosmos 3: 统一 MoT                  │
├─────────────────┬───────────────────────────┤
│   推理模式       │      生成模式             │
│   (感知)       │      (生成)             │
├─────────────────┼───────────────────────────┤
│ 文本 + 视觉      │ 噪声图像/视频/            │
│ → 文本          │ 音频/行动                 │
│ (理解)        │ → 清晰图像/视频/          │
│                 │ 行动/声音                 │
├─────────────────┼───────────────────────────┤
│ 共享组件:       │                          │
│ - Transformer 层                        │
│ - 多模态注意力层                        │
│ - 3D mRoPE(空间+时序编码)            │
└─────────────────┴──────────────────────────┘

两种模式共享相同的Transformer架构、多模态注意力层,以及统一的3D多维旋转位置嵌入(mRoPE),能够跨模态编码空间和时间结构。

两种运行时界面 #

Cosmos 3 提供两种不同的运行时界面:

推理器(理解) #

处理输入并生成文本输出,用于世界理解任务:

输入: 文本 + 图像 + 视频 + 行动
         ↓
    推理器 (AR Transformer)
         ↓
输出: 文本(描述、下一步行动、物理推理、任务计划)

应用场景

  • 从视频流中进行世界理解
  • 机器人下一步行动预测
  • 物理合理性检查
  • 因果结果预测
  • 具身智能体推理

生成器(创作) #

根据多模态输入生成非文本输出:

输入: 文本 + 图像 + 视频 + 声音 + 行动
         ↓
    生成器 (扩散Transformer)
         ↓
输出: 图像 + 视频 + 声音 + 行动

应用场景

  • 文生图
  • 图生视频
  • 世界模拟和预测
  • 为训练机器人而生成的合成数据
  • 行动条件视频生成
  • 基于演示的策略学习

快速开始:安装 #

Cosmos 运行在配备NVIDIA GPU(Ampere、Hopper或Blackwell架构)的Linux系统上。安装使用 uv(高速Python包管理器):

系统要求 #

  • 操作系统:Linux
  • GPU:NVIDIA GPU(Ampere/A100/H100/Blackwell RTX 6000+)
  • CUDA:12.8 或 13.0
  • Python:3.10+
  • 内存:64GB+(推荐使用128GB以运行64B模型)

使用uv安装 #

# 安装系统依赖
sudo apt-get install -y --no-install-recommends curl ffmpeg git-lfs \
  libx11-dev tree wget

# 克隆框架
git clone https://github.com/NVIDIA/cosmos-framework.git
cd cosmos-framework

# 使用uv安装(CUDA 12.8版本)
uv sync --all-extras --group=cu128-train
source .venv/bin/activate

# 或者CUDA 13.0(推荐):
# uv sync --all-extras --group=cu130-train

快速推理 #

# 使用Diffusers后端的单GPU推理
python -m cosmos_framework.scripts.inference \
    --parallelism-preset=latency \
    -i inputs/omni/t2v.json \
    -o outputs/omni_nano \
    --checkpoint-path Cosmos3-Nano \
    --seed=0

HuggingFace模型 #

# 从HuggingFace下载模型
huggingface-cli download nvidia/Cosmos3-Nano \
    --local-dir ~/cosmos/models/nano

生成器模式:世界生成 #

生成器根据多模态输入生成图像、视频、音频和行动输出:

文生图 #

from cosmos_framework.scripts.inference import run_inference

# 从文本生成图像
result = run_inference(
    checkpoint="Cosmos3-Super-Text2Image",
    input_type="text",
    input_text="一台机械臂在现代实验室中组装电路板",
    output_type="image",
    resolution="720p",
    seed=42
)
# 输出:机械臂组装电路板的高保真图像

图生视频 #

# 从单张图像生成时序一致的动画
result = run_inference(
    checkpoint="Cosmos3-Super-Image2Video",
    input_type="image",
    input_image="robot_lab.jpg",
    output_type="video",
    frame_count=189,  # 默认:189帧(约7.8秒@24fps)
    fps=24,
    resolution="720p"
)
# 输出:机器人实验室场景的动态视频

文生视频 #

# 直接从文本提示词生成视频
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="text",
    input_text="一辆自动驾驶汽车在夜间暴雨中穿行,城市灯光在湿滑路面上反射",
    output_type="video",
    frame_count=300,
    fps=30,
    resolution="720p"
)
# 输出:带同步音频的视频(AAC立体声48kHz)

支持的生成设置 #

参数选项
分辨率256p、480p、720p(默认:480p)
宽高比16:9、4:3、1:1、3:4、9:16(默认:16:9)
帧率10、16、24、30 FPS(默认:24)
帧数5至300帧(默认:189)
精度BF16(已测试)

推理器模式:世界理解 #

推理器提供用于理解和规划的文本输出:

# 从视频中理解世界
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="video",
    input_video="warehouse_robots.mp4",
    output_type="text",
    task="describe_temporal_events"
)
# 输出:"在0-30帧,两只机械臂协同操作..."

# 机器人下一步行动预测
result = run_inference(
    checkpoint="Cosmos3-Nano-Policy-DROID",
    input_type="image+text",
    input_image="robot_workspace.jpg",
    input_text="机器人下一步应该做什么?",
    output_type="text"
)
# 输出:"从左侧托盘中拿起红色组件..."

# 物理合理性检查
result = run_inference(
    checkpoint="Cosmos3-Super",
    input_type="video",
    input_video="physics_demo.mp4",
    output_type="text",
    task="check_physical_plausibility"
)
# 输出:"球的运动轨迹违反重力定律..."

应用场景 #

使用合成数据进行机器人训练 #

Cosmos为机器人生成合成训练数据,减少了对昂贵真实世界数据采集的需求:

# 生成1000段仓库机器人的合成视频片段
# 用于训练操作策略
cosmos_framework.scripts.training.train \
    --recipe examples/launch_sft_vision_nano.sh \
    --num-samples 1000 \
    --output-dir /data/warehouse_synthetic

自动驾驶模拟 #

# 模拟自动驾驶场景
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="text+image",
    input_text="一辆自动驾驶汽车在红灯路口前",
    input_image="intersection.jpg",
    output_type="video+action",
    task="predict_vehicle_dynamics"
)
# 输出:汽车停车的视频 + 行动向量(转向、油门、刹车)

智能基础设施监控 #

# 分析监控摄像头的异常事件
result = run_inference(
    checkpoint="Cosmos3-Super",
    input_type="video",
    input_video="factory_cam_01.mp4",
    output_type="text",
    task="detect_anomalies"
)
# 输出:"14:32:15,无标记车辆进入限制区域..."

训练:微调Cosmos模型 #

Cosmos框架包含用于自定义数据监督微调(SFT)的训练脚本:

# 在8×H100 80GB上进行多GPU SFT训练
bash examples/launch_sft_vision_nano.sh

# 关键配置选项
# - DP/CP/FSDP并行策略
# - 原生DCP检查点,使用HuggingFace safetensors
# - JSONL / WebDataset / LeRobot数据集适配器
# - 混合精度训练
# - 检查点断点续训支持
# 训练配置示例
training_config = {
    "model": "Cosmos3-Nano",
    "num_gpus": 8,
    "parallelism": "FSDP",  # 全分片数据并行
    "mixed_precision": "bf16",
    "batch_size_per_gpu": 4,
    "dataset": {
        "type": "jsonl",
        "path": "/data/training_samples.jsonl"
    },
    "checkpoint_dir": "/checkpoints/sft_nano"
}

与替代方案对比 #

特性NVIDIA CosmosRunway Gen-3SoraPika Labs
开源✅ 是❌ 专有❌ 专有❌ 专有
推理模式✅ 内置
行动生成✅ 内置
机器人策略✅ DROID模型
本地推理✅ 支持❌ 仅API❌ 仅API❌ 仅API
合成数据✅ 内置
微调✅ 支持
可用模型5种(Nano+Super变体)111
GPU要求推荐H100/A100仅云端仅云端仅云端
许可证Apache-2.0专有专有专有
特性NVIDIA CosmosStable Video DiffusionLuma Dream Machine
开源✅ 是✅ 是❌ 专有
多模态✅ 文本+图像+视频+音频+行动❌ 仅图生视频❌ 仅文生视频
物理推理✅ 内置
机器人支持✅ DROID策略模型

基准测试 #

生成质量 #

Cosmos 3模型在多个基准上进行了评估:

基准Cosmos3-NanoCosmos3-SuperRunway Gen-3Sora
VideoFID(↓)8.25.16.34.8
CLIP-I 分数(↑)0.890.930.910.92
物理合理性(↑)0.760.89不适用不适用
行动准确率(↑)0.710.84不适用不适用

来源:NVIDIA内部评估,2026年5月。VideoFID:越低越好。CLIP-I:越高越好(图像-文本对齐度)。物理合理性:人类评估的物理正确性得分。行动准确率:预测行动与真实行动的一致性。

推理速度 #

模型分辨率帧数GPU时间
Cosmos3-Nano480p189帧1×H100~45秒
Cosmos3-Nano720p189帧1×H100~90秒
Cosmos3-Super480p189帧1×H100~180秒
Cosmos3-Super720p189帧2×H100~240秒

局限性与客观评估 #

Cosmos开创了先河,但了解其局限性同样重要:

  1. 硬件要求极高:至少需要一块H100/A100级别的GPU才能获得可观的性能。64B模型可能需要2块以上GPU。消费级硬件无法运行。

  2. 仅支持Linux:框架仅支持Linux,依赖CUDA。目前不支持macOS。

  3. 项目非常年轻:首次提交于2024年12月。尽管有NVIDIA的资源支持,这仍然是一个快速演进的項目,可能存在破坏性更新。

  4. 无面向消费者的API:与Runway、Sora或Pika不同,Cosmos需要你自己搭建框架。没有"点击即生成"的界面(不过nvidia.com/en-us/ai/cosmos/网站提供引导式体验)。

  5. 数据依赖性:Cosmos的质量高度依赖训练数据。如果你尝试用自己的领域数据(医学影像、科学可视化)进行微调,就需要领域特定的训练数据。

  6. NVIDIA生态绑定:虽然模型是开源的(Apache-2.0),但整个工具链(Cosmos框架、NGC镜像、NVIDIA优化)与NVIDIA硬件深度绑定。目前不支持在AMD或Intel GPU上运行。

  7. 社区规模较小:19个开放问题,657个fork。项目发展迅速,但与Stable Diffusion或Llama等模型相比,社区规模仍然较小。

常见问题 #

问:我能在消费级GPU上运行Cosmos吗? 技术上,你可能能在高端消费级GPU(如配备24GB显存的RTX 4090)上运行Cosmos3-Nano的小规模生成(256p分辨率、短视频),但性能会受到限制。64B模型需要A100/H100级别的GPU。

问:Cosmos与Stable Video Diffusion有何不同? SVD仅是一个图生视频模型。Cosmos是一个统一的多模态平台,在一个框架内同时支持文生图、文生视频、图生视频、视频理解、物理推理和机器人策略预测。

问:我能用自己的数据微调Cosmos吗? 可以。该框架支持使用JSONL、WebDataset和LeRobot数据集格式的有监督微调(SFT)。微调64B模型需要8×H100 GPU。对于较小模型(Nano),4块GPU即可。

问:Cosmos有API吗? 没有直接的API。不过,NVIDIA通过NIM(NVIDIA推理微服务)平台提供Cosmos,该平台为Cosmos模型提供OpenAI兼容的API。

问:许可证是什么? 代码采用Apache-2.0许可,模型权重在NVIDIA研究许可下提供。在正确署名后可以用于商业用途。

结论 #

NVIDIA Cosmos代表了我们在AI和物理世界交互方式上的根本性转变。它不再将视频生成、图像生成、机器人策略和物理推理视为独立的问题,而是通过单一的混合Transformer架构将它们统一起来。

推理模式(理解)和生成模式(创作)——两者共享同一Transformer主干——意味着你可以在一个流程中从理解场景过渡到生成该场景的未来。

对于机器人、自动驾驶和智能基础设施而言,Cosmos不仅仅是一个AI模型。它是基础设施。

如果你正在构建物理AI系统,Cosmos应该成为你研究清单上的首选。


来源与延伸阅读

  • 技术报告:https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf
  • Cosmos 3 模型:https://huggingface.co/collections/nvidia/cosmos3
  • Cosmos 框架:https://github.com/NVIDIA/cosmos-framework
  • 官网:https://www.nvidia.com/en-us/ai/cosmos/

体验 NVIDIA Cosmos:访问 nvidia.com/en-us/ai/cosmos/ 获取引导式体验,或克隆 github.com/NVIDIA/cosmos-framework 获取完整框架。

加入社区:Telegram · HuggingFace

内部链接:Runway Gen-3 深度评测 2026 · Stability AI Stable Video Diffusion 详解

披露声明:本文提及的工具可能存在联盟关系。我们不接受付费正面评价。所有基准测试均为自行实施或源自官方文档。

💬 留言讨论

I6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InVxanlkZm9wa2N3d3ZxdWl2c3VvIiwicm9sZSI6ImFub24iLCJpYXQiOjE3Nzk0NDAxOTAsImV4cCI6MjA5NTAxNjE5MH0.PEpJUbmaxR-dmtJ27XWc0CPcBSY7MUFSIKAZ-lo2ygg"}