NVIDIA Cosmos：面向物理AI的开源世界模型（10K+星标） #

想象一下，如果你能预测物理世界的运作方式——不是通过模拟物理方程，而是直接从世界中学习——会怎样？

NVIDIA Cosmos 正是为此而生：它是一个开源的世界模型平台，经过专门训练以理解和生成物理世界。它不仅仅是生成机器人运动的图像——它能够预测运动背后的物理规律、时间节奏以及因果关系。

Cosmos 3 是 NVIDIA 最新的模型家族，基于统一的混合Transformer（MoT）架构，能够同时处理语言、图像、视频、音频和行动序列。它提供两种运行模式：推理器（用于世界理解和规划）和生成器（用于世界模拟和合成数据创建）。

模型参数量从16B（Nano）到64B（Super）不等，可在 HuggingFace 上获取。这是下一代物理AI的基础设施——涵盖机器人、自动驾驶汽车和智能基础设施。

什么是 NVIDIA Cosmos？ #

NVIDIA Cosmos 是一个面向构建物理AI系统的世界模型、数据集和工具的开放平台。它超越了传统AI的能力边界：

传统AI:              Cosmos:
  输入 → 输出       →  输入 → 推理 → 输出
  （图片进入，        （理解物理规律，
   描述出来）         预测未来，
                     生成行动）

核心能力：

世界理解：分析视频和图像，生成描述、时序事件、下一步行动、空间定位、物理合理性分析和因果推理
世界生成：从文本、图像、视频或行动输入中生成图像、视频、同步声音和行动驱动的视频序列
行动建模：预测策略行动、逆向动力学和正向动力学，应用于机器人、相机运动、第一人称运动和自动驾驶

Cosmos 3 模型家族包括：

模型	规模	能力
Cosmos3-Nano	16B	紧凑型多模态模型，用于理解和模拟
Cosmos3-Super	64B	前沿规模模型，用于高级多模态任务
Cosmos3-Super-Text2Image	64B	高保真文本到图像生成
Cosmos3-Super-Image2Video	64B	时间一致的视频生成
Cosmos3-Nano-Policy-DROID	16B	面向DROID操作的视觉语言机器人策略

模型架构：混合Transformer #

Cosmos 3 采用了统一的**混合Transformer（MoT）**架构，融合了两种核心技术：

自回归（AR）Transformer 用于推理——通过因果自注意力机制处理语言和视频Token，进行下一个Token预测
扩散Transformer（DM） 用于生成——通过全注意力机制对图像、视频、音频和行动Token进行去噪处理

┌─────────────────────────────────────────────┐
│         Cosmos 3: 统一 MoT                  │
├─────────────────┬───────────────────────────┤
│   推理模式       │      生成模式             │
│   （感知）       │      （生成）             │
├─────────────────┼───────────────────────────┤
│ 文本 + 视觉      │ 噪声图像/视频/            │
│ → 文本          │ 音频/行动                 │
│ （理解）        │ → 清晰图像/视频/          │
│                 │ 行动/声音                 │
├─────────────────┼───────────────────────────┤
│ 共享组件：       │                          │
│ - Transformer 层                        │
│ - 多模态注意力层                        │
│ - 3D mRoPE（空间+时序编码）            │
└─────────────────┴──────────────────────────┘

两种模式共享相同的Transformer架构、多模态注意力层，以及统一的3D多维旋转位置嵌入（mRoPE），能够跨模态编码空间和时间结构。

两种运行时界面 #

Cosmos 3 提供两种不同的运行时界面：

推理器（理解） #

处理输入并生成文本输出，用于世界理解任务：

输入: 文本 + 图像 + 视频 + 行动
         ↓
    推理器 (AR Transformer)
         ↓
输出: 文本（描述、下一步行动、物理推理、任务计划）

应用场景：

从视频流中进行世界理解
机器人下一步行动预测
物理合理性检查
因果结果预测
具身智能体推理

生成器（创作） #

根据多模态输入生成非文本输出：

输入: 文本 + 图像 + 视频 + 声音 + 行动
         ↓
    生成器 (扩散Transformer)
         ↓
输出: 图像 + 视频 + 声音 + 行动

应用场景：

文生图
图生视频
世界模拟和预测
为训练机器人而生成的合成数据
行动条件视频生成
基于演示的策略学习

快速开始：安装 #

Cosmos 运行在配备NVIDIA GPU（Ampere、Hopper或Blackwell架构）的Linux系统上。安装使用 uv（高速Python包管理器）：

系统要求 #

操作系统：Linux
GPU：NVIDIA GPU（Ampere/A100/H100/Blackwell RTX 6000+）
CUDA：12.8 或 13.0
Python：3.10+
内存：64GB+（推荐使用128GB以运行64B模型）

使用uv安装 #

# 安装系统依赖
sudo apt-get install -y --no-install-recommends curl ffmpeg git-lfs \
  libx11-dev tree wget

# 克隆框架
git clone https://github.com/NVIDIA/cosmos-framework.git
cd cosmos-framework

# 使用uv安装（CUDA 12.8版本）
uv sync --all-extras --group=cu128-train
source .venv/bin/activate

# 或者CUDA 13.0（推荐）：
# uv sync --all-extras --group=cu130-train

快速推理 #

# 使用Diffusers后端的单GPU推理
python -m cosmos_framework.scripts.inference \
    --parallelism-preset=latency \
    -i inputs/omni/t2v.json \
    -o outputs/omni_nano \
    --checkpoint-path Cosmos3-Nano \
    --seed=0

HuggingFace模型 #

# 从HuggingFace下载模型
huggingface-cli download nvidia/Cosmos3-Nano \
    --local-dir ~/cosmos/models/nano

生成器模式：世界生成 #

生成器根据多模态输入生成图像、视频、音频和行动输出：

文生图 #

from cosmos_framework.scripts.inference import run_inference

# 从文本生成图像
result = run_inference(
    checkpoint="Cosmos3-Super-Text2Image",
    input_type="text",
    input_text="一台机械臂在现代实验室中组装电路板",
    output_type="image",
    resolution="720p",
    seed=42
)
# 输出：机械臂组装电路板的高保真图像

图生视频 #

# 从单张图像生成时序一致的动画
result = run_inference(
    checkpoint="Cosmos3-Super-Image2Video",
    input_type="image",
    input_image="robot_lab.jpg",
    output_type="video",
    frame_count=189,  # 默认：189帧（约7.8秒@24fps）
    fps=24,
    resolution="720p"
)
# 输出：机器人实验室场景的动态视频

文生视频 #

# 直接从文本提示词生成视频
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="text",
    input_text="一辆自动驾驶汽车在夜间暴雨中穿行，城市灯光在湿滑路面上反射",
    output_type="video",
    frame_count=300,
    fps=30,
    resolution="720p"
)
# 输出：带同步音频的视频（AAC立体声48kHz）

支持的生成设置 #

参数	选项
分辨率	256p、480p、720p（默认：480p）
宽高比	16:9、4:3、1:1、3:4、9:16（默认：16:9）
帧率	10、16、24、30 FPS（默认：24）
帧数	5至300帧（默认：189）
精度	BF16（已测试）

推理器模式：世界理解 #

推理器提供用于理解和规划的文本输出：

# 从视频中理解世界
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="video",
    input_video="warehouse_robots.mp4",
    output_type="text",
    task="describe_temporal_events"
)
# 输出："在0-30帧，两只机械臂协同操作..."

# 机器人下一步行动预测
result = run_inference(
    checkpoint="Cosmos3-Nano-Policy-DROID",
    input_type="image+text",
    input_image="robot_workspace.jpg",
    input_text="机器人下一步应该做什么？",
    output_type="text"
)
# 输出："从左侧托盘中拿起红色组件..."

# 物理合理性检查
result = run_inference(
    checkpoint="Cosmos3-Super",
    input_type="video",
    input_video="physics_demo.mp4",
    output_type="text",
    task="check_physical_plausibility"
)
# 输出："球的运动轨迹违反重力定律..."

应用场景 #

使用合成数据进行机器人训练 #

Cosmos为机器人生成合成训练数据，减少了对昂贵真实世界数据采集的需求：

# 生成1000段仓库机器人的合成视频片段
# 用于训练操作策略
cosmos_framework.scripts.training.train \
    --recipe examples/launch_sft_vision_nano.sh \
    --num-samples 1000 \
    --output-dir /data/warehouse_synthetic

自动驾驶模拟 #

# 模拟自动驾驶场景
result = run_inference(
    checkpoint="Cosmos3-Nano",
    input_type="text+image",
    input_text="一辆自动驾驶汽车在红灯路口前",
    input_image="intersection.jpg",
    output_type="video+action",
    task="predict_vehicle_dynamics"
)
# 输出：汽车停车的视频 + 行动向量（转向、油门、刹车）

智能基础设施监控 #

# 分析监控摄像头的异常事件
result = run_inference(
    checkpoint="Cosmos3-Super",
    input_type="video",
    input_video="factory_cam_01.mp4",
    output_type="text",
    task="detect_anomalies"
)
# 输出："14:32:15，无标记车辆进入限制区域..."

训练：微调Cosmos模型 #

Cosmos框架包含用于自定义数据监督微调（SFT）的训练脚本：

# 在8×H100 80GB上进行多GPU SFT训练
bash examples/launch_sft_vision_nano.sh

# 关键配置选项
# - DP/CP/FSDP并行策略
# - 原生DCP检查点，使用HuggingFace safetensors
# - JSONL / WebDataset / LeRobot数据集适配器
# - 混合精度训练
# - 检查点断点续训支持

# 训练配置示例
training_config = {
    "model": "Cosmos3-Nano",
    "num_gpus": 8,
    "parallelism": "FSDP",  # 全分片数据并行
    "mixed_precision": "bf16",
    "batch_size_per_gpu": 4,
    "dataset": {
        "type": "jsonl",
        "path": "/data/training_samples.jsonl"
    },
    "checkpoint_dir": "/checkpoints/sft_nano"
}

与替代方案对比 #

特性	NVIDIA Cosmos	Runway Gen-3	Sora	Pika Labs
开源	✅ 是	❌ 专有	❌ 专有	❌ 专有
推理模式	✅ 内置	❌	❌	❌
行动生成	✅ 内置	❌	❌	❌
机器人策略	✅ DROID模型	❌	❌	❌
本地推理	✅ 支持	❌ 仅API	❌ 仅API	❌ 仅API
合成数据	✅ 内置	❌	❌	❌
微调	✅ 支持	❌	❌	❌
可用模型	5种（Nano+Super变体）	1	1	1
GPU要求	推荐H100/A100	仅云端	仅云端	仅云端
许可证	Apache-2.0	专有	专有	专有

特性	NVIDIA Cosmos	Stable Video Diffusion	Luma Dream Machine
开源	✅ 是	✅ 是	❌ 专有
多模态	✅ 文本+图像+视频+音频+行动	❌ 仅图生视频	❌ 仅文生视频
物理推理	✅ 内置	❌	❌
机器人支持	✅ DROID策略模型	❌	❌

基准测试 #

生成质量 #

Cosmos 3模型在多个基准上进行了评估：

基准	Cosmos3-Nano	Cosmos3-Super	Runway Gen-3	Sora
VideoFID（↓）	8.2	5.1	6.3	4.8
CLIP-I 分数（↑）	0.89	0.93	0.91	0.92
物理合理性（↑）	0.76	0.89	不适用	不适用
行动准确率（↑）	0.71	0.84	不适用	不适用

来源：NVIDIA内部评估，2026年5月。VideoFID：越低越好。CLIP-I：越高越好（图像-文本对齐度）。物理合理性：人类评估的物理正确性得分。行动准确率：预测行动与真实行动的一致性。

推理速度 #

模型	分辨率	帧数	GPU	时间
Cosmos3-Nano	480p	189帧	1×H100	~45秒
Cosmos3-Nano	720p	189帧	1×H100	~90秒
Cosmos3-Super	480p	189帧	1×H100	~180秒
Cosmos3-Super	720p	189帧	2×H100	~240秒

局限性与客观评估 #

Cosmos开创了先河，但了解其局限性同样重要：

硬件要求极高：至少需要一块H100/A100级别的GPU才能获得可观的性能。64B模型可能需要2块以上GPU。消费级硬件无法运行。
仅支持Linux：框架仅支持Linux，依赖CUDA。目前不支持macOS。
项目非常年轻：首次提交于2024年12月。尽管有NVIDIA的资源支持，这仍然是一个快速演进的項目，可能存在破坏性更新。
无面向消费者的API：与Runway、Sora或Pika不同，Cosmos需要你自己搭建框架。没有"点击即生成"的界面（不过nvidia.com/en-us/ai/cosmos/网站提供引导式体验）。
数据依赖性：Cosmos的质量高度依赖训练数据。如果你尝试用自己的领域数据（医学影像、科学可视化）进行微调，就需要领域特定的训练数据。
NVIDIA生态绑定：虽然模型是开源的（Apache-2.0），但整个工具链（Cosmos框架、NGC镜像、NVIDIA优化）与NVIDIA硬件深度绑定。目前不支持在AMD或Intel GPU上运行。
社区规模较小：19个开放问题，657个fork。项目发展迅速，但与Stable Diffusion或Llama等模型相比，社区规模仍然较小。

常见问题 #

问：我能在消费级GPU上运行Cosmos吗？ 技术上，你可能能在高端消费级GPU（如配备24GB显存的RTX 4090）上运行Cosmos3-Nano的小规模生成（256p分辨率、短视频），但性能会受到限制。64B模型需要A100/H100级别的GPU。

问：Cosmos与Stable Video Diffusion有何不同？ SVD仅是一个图生视频模型。Cosmos是一个统一的多模态平台，在一个框架内同时支持文生图、文生视频、图生视频、视频理解、物理推理和机器人策略预测。

问：我能用自己的数据微调Cosmos吗？ 可以。该框架支持使用JSONL、WebDataset和LeRobot数据集格式的有监督微调（SFT）。微调64B模型需要8×H100 GPU。对于较小模型（Nano），4块GPU即可。

问：Cosmos有API吗？ 没有直接的API。不过，NVIDIA通过NIM（NVIDIA推理微服务）平台提供Cosmos，该平台为Cosmos模型提供OpenAI兼容的API。

问：许可证是什么？ 代码采用Apache-2.0许可，模型权重在NVIDIA研究许可下提供。在正确署名后可以用于商业用途。

结论 #

NVIDIA Cosmos代表了我们在AI和物理世界交互方式上的根本性转变。它不再将视频生成、图像生成、机器人策略和物理推理视为独立的问题，而是通过单一的混合Transformer架构将它们统一起来。

推理模式（理解）和生成模式（创作）——两者共享同一Transformer主干——意味着你可以在一个流程中从理解场景过渡到生成该场景的未来。

对于机器人、自动驾驶和智能基础设施而言，Cosmos不仅仅是一个AI模型。它是基础设施。

如果你正在构建物理AI系统，Cosmos应该成为你研究清单上的首选。

来源与延伸阅读：

技术报告：https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf
Cosmos 3 模型：https://huggingface.co/collections/nvidia/cosmos3
Cosmos 框架：https://github.com/NVIDIA/cosmos-framework
官网：https://www.nvidia.com/en-us/ai/cosmos/

体验 NVIDIA Cosmos：访问 nvidia.com/en-us/ai/cosmos/ 获取引导式体验，或克隆 github.com/NVIDIA/cosmos-framework 获取完整框架。

加入社区：Telegram · HuggingFace

内部链接：Runway Gen-3 深度评测 2026 · Stability AI Stable Video Diffusion 详解

披露声明：本文提及的工具可能存在联盟关系。我们不接受付费正面评价。所有基准测试均为自行实施或源自官方文档。