Wan 2.1:16.1K+ 星标——2026年开放视频生成深度剖析对比 HunyuanVideo、CogVideo

Wan 2.1 is an open suite of video foundation models by Alibaba with SOTA performance. Supports ComfyUI, Diffusers, and Gradio. Covers T2V, I2V, video editing, and text generation with 1.3B and 14B parameter variants.

  • Apache-2.0
  • 更新于 2026-05-19

{{< 资源信息 >}}

Wan 2.1 特征图
## 介绍 每个尝试在本地生成视频的开发人员都知道同样的痛苦:要么该模型需要比汽车更昂贵的 GPU 硬件,要么输出看起来像 20 世纪 90 年代的幻灯片。 2025 年初,阿里巴巴的 Wan 团队发布了 Wan 2.1——一个完全开源的视频生成套件,改变了现状。 Wan 2.1 拥有 16,100 多个 GitHub star 和在 RTX 4090 上运行的 1.3B 参数模型,是当今最容易访问的高质量视频生成模型。 本指南介绍了 Wan 2.1 是什么、它是如何工作的、如何安装它、它如何与 HunyuanVideo、CogVideo 和 Open-Sora 相比,以及如何在生产中运行它。 ## 什么是 Wan 2.1? 万2.1是阿里巴巴万团队于2025年2月发布的开放、先进的大规模视频生成模型套件。 它提供文本到视频(T2V)、图像到视频(I2V)、视频编辑、文本到图像、首末帧到视频(FLF2V)和视频到音频生成功能。 该套件有两种参数大小:一种是用于实现最高质量的 14B 模型,另一种是针对消费级 GPU 进行优化的 1.3B 模型。 Wan 2.1是第一个能够在视频帧内生成中英文文本的开源视频模型,这种能力即使在2026年仍然很少见。
Wan .1 徽标
## Wan 2.1 的工作原理 ### 架构概述 Wan 2.1 基于具有流量匹配的扩散变压器 (DiT) 范例,与稳定扩散 3 和后续图像生成模型使用的架构系列相同。 该架构具有三个核心组件: Wan-VAE(视频变分自动编码器): 一种 3D 因果 VAE,可通过 256 倍时空压缩对视频进行编码和解码。 与标准图像 VAE 不同,Wan-VAE 保留了时间因果关系——这意味着帧只关注之前的帧,而不关注未来的帧。 这消除了早期视频生成模型中常见的闪烁伪影。 Wan-VAE 可以对任意长度的 1080P 视频进行编码,而不会丢失时间信息,使其适用于超出基本模型的 81 帧生成窗口的长格式视频任务。 **扩散变压器(DiT):**生成主干使用具有交叉注意力的标准变压器来进行文本调节。 每个转换器块处理时空补丁并通过 T5 编码器嵌入应用文本指导。 MLP 调制在所有块之间使用共享 MLP,并具有每个块学习偏差,这是一种在相同参数规模下提高质量的优化。 T5文本编码器: Wan 2.1使用UMT5-XXL文本编码器进行多语言提示理解。 该编码器接受了英文和中文文本的训练,无需即时翻译即可提供 Wan 2.1 本地双语理解。 ### 型号规格 | 型号| 参数| 分辨率| VRAM(单 GPU)| 典型生成时间| |

📦 出现在以下合集中

💬 留言讨论