How much VRAM does HunyuanVideo need to generate 720p video?

The original 13B model requires about 60GB of GPU memory for 720p generation and 45GB for 540p. HunyuanVideo-1.5 reduces this to 24GB with INT8 quantization, or 14GB with CPU offloading enabled, letting a single RTX 4090 run the 1.5 model.

Can HunyuanVideo run on Windows or macOS?

No. The project officially supports Linux with NVIDIA GPUs only, with no documented Windows or macOS support. Some users report success via WSL2 with CUDA pass-through, but this is untested by the Tencent team and may require troubleshooting CUDA compatibility.

What is the difference between the original HunyuanVideo and HunyuanVideo-1.5?

The original December 2024 release uses a 13B-parameter Diffusion Transformer and needs ~60GB VRAM for 720p. The November 2025 HunyuanVideo-1.5 trims to 8.3B parameters, adds the SSTA (Selective and Sliding Tile Attention) mechanism for a 1.87x speedup, includes a 1080p super-resolution upscaler, and runs in 24GB with INT8 quantization.

How do I reduce HunyuanVideo's memory usage with FP8 quantization?

Download the FP8 quantized weights (mp_rank_00_model_states_fp8.pt) and run sample_video.py with the --use-fp8 flag, which activates the FP8 pipeline using the E4M3 format (4 exponent, 3 mantissa bits). This saves approximately 10GB of VRAM, cutting memory by about 40% with minimal quality loss.

How much faster is multi-GPU inference for HunyuanVideo?

Using xDiT's Unified Sequence Parallelism, 8 GPUs achieve a 5.64x speedup over single-GPU (latency drops from 1904 to 338 seconds on 1280x720, 129 frames, 50 steps). The --ulysses-degree and --ring-degree flags control the strategy; maximizing Ulysses parallelism first is recommended for most setups.

{{< 资源信息 >}} 需要 60GB VRAM 才能播放 5 秒 720p 剪辑的视频生成模型不是玩具，而是基础设施。腾讯的混源视频是一款用于视频生成的 130 亿参数的补丁，已积累了超过 12,100 个 GitHub star，成为需要在自托管硬件上进行电影质量视频合成的团队的首要任务。本 hunyuanvideo 教程将介绍完整的生产设置：从 hunyuanvideo Docker 部署到 FP8 量化、多 GPU 硬件推理、ComfyUI 集成以及大规模服务视频生成生产工作负载时所需的监控。 ## 混元视频是什么？混源视频是腾讯公司开发的大型视频生成模型的系统框架。原始版本（2024年12月）具有13B参数扩散变压器（DiT），可根据文本提示或参考图像生成720p视频剪辑。 2025年11月的后续版本HunyuanVideo-1.5将参数更新至8.3B，同时引入SSTA（选择性和滑动平铺焦点）机制并内置超分辨率升级器至1080p。该版本均获得 Apache-2.0 许可，并在配备 NVIDIA GPU 的 Linux 上运行。本 hunyuanvideo 我们的指南主要讲述了手动安装路径和 Docker 安装路径。 ## 混源视频的工作原理架构遵循包含三个主要组件的潜在扩展管道：

因果3D VAE以4倍时间压缩比和8倍空间压缩比将输入视频压缩到潜在空间中。这减少了输入变压器的令牌数量，从而消耗了按比例计算增长即可实现更高分辨率的生成。 MLLM 文本编码器 取代了旧视频模型中使用的传统 CLIP + T5-XXL 组合。 HunyuanVideo使用蓝牙标记细化的具有多模态大型语言模型（特别是1.5中经过改装的Qwen2.5-VL变体）。这可以更好地提示复杂的场景。

双流到单流DiT通过初始转换器块（双流）独立处理视频和文本标记，然后将它们连接起来在后续块（单流）中进行多模态融合。这种设计平衡了特定模态学习与混合跨模态注意力。

SSTA Attention（仅限1.5） 使用滑动平铺窗动态园艺时空键/值块。与FlashAttention-3相比，这在10秒720p合成上实现了1.87倍的成品加速。 ## 安装和设置运行 HunyuanVideo 实例的最快路径是 Docker。对于需要自定义构建的团队，请执行手动 conda 安装。 ### Docker部署（推荐）```` bas h

拉取官方 CUDA 12 镜像 docker pull hunyuanvideo/hunyuanvideo:cuda_12 # 使用GPU直通运行 docker run -itd –gpus all –init –net=host –uts=host –ipc=host \ –name 混元视频 \ –security-opt=seccomp=无限制 \ –ulimit=stack=67108864 –ulimit=memlock=-1 \ –权限\ -v /mnt/models:/models \ -p 8081:8081 \ 混源视频/混视频:cuda_12 ### 在 Ubuntu 上手动安装 #

bas h

flash-attention.git@v2.6.3 # 安装xDiT进行多GPU硬件推理 python -m pip install xfuser==0.4.0 `### 下载模型权重` #

bas h

安装huggingface-cli pip 安装 Huggingface_hub # 下载主要的 DiT 权重 Huggingface-cli 下载腾讯/混元视频 \ –include“mp_rank_00_model_states.pt”\ –local-dir ./ckpts # 下载 FP8 量化权重（节省约 10GB VRAM） Huggingface-cli 下载腾讯/混元视频 \ –include“mp_rank_00_model_states_fp8.pt”\ –local-dir ./ckpts # 下载文本编码器模型 Huggingface-cli 下载腾讯/混元视频 \ –include“text_encoder”\ –local-dir ./ckpts `### 第一次推理运行` #

bas h conda激活浑源 python 样本_视频.py \ –视频大小 720 1280 \ –视频长度 129 \ –推断步骤 50 \ –提示“一只猫在草地上行走，写实风格，黄金时刻灯光”\ –流-方向 \ –use-cpu-offload \ –保存路径./结果 “--use-cpu-offload”标志对于 VRAM 小于 80GB 的 GPU 至关重要。它在不使用时将模型权重卸载到系统RAM，以快速换取内存。 ## 与流行工具集成 ### ComfyUI（本机节点） ComfyUI 于 2025 年年初添加了原生视频支持。从 Comfy-Org 下载重新资源的模型文件： bas h

模型文件转到ComfyUI/models/ # - text_encoders/clip_l.safetensors # - text_encoders/llava_llama3_vision.safetensors #-diffusion_models/hunyuan_video_720p_bf16.safetensors # - vae/hunyuan_video_vae_bf16.safetensors ````通过将 #

JSON 拖入 ComfyUI 来加载官方工作流程。关键节点是HunyuanVideoSampler、HunyuanVideoDecode和TextEncodeHunyuanVideo。 ### Kijai 的 HunyuanVideoWrapper（高级） For FP8 推理、视频到视频和图像到视频，请使用社区包装器：```` bas h

通过 ComfyUI Manager 或 git 安装 cd ComfyUI/custom_nodes git 克隆 https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git # 安装依赖项 cd ComfyUI-HunyuanVideoWrapper pip install -r 要求.txt `从 Hugging Face 上的“Kijai/Hunyuan Video comfy”下载 FP8 权重将其放置在“ComfyUI/models/diffusion_models/”中。 ### 扩管器管道`蟒蛇 #

从扩散器导入浑源VideoPipeline 导入火炬管道 = HunyuanVideoPipeline.from_pretrained( “腾讯/混源视频-1.5”, torch_dtype=torch.bfloat16, 变体=“fp8” ） pipeline.enable_model_cpu_offload() 视频=管道（ Prompt=“一只猫在爵士乐俱乐部弹钢琴，温暖的灯光”,帧数=121，高度=720，宽度=1280，num_inference_steps=30，指导规模=6.0 ).frames[0] # 保存视频将 numpy 导入为 np 从PIL导入图片帧 = [(f * 255).astype(np.uint8) for f in video] 帧 = [Image.fromarray(f) 对于帧中的 f] 帧[0].保存(“输出.mp4”，save_all=真，附加图像=帧[1:],持续时间=67，循环=0 ） ### 广播 API 服务器 bas h

启动Gradio服务器 python gradio_server.py –flow-reverse #或者绑定所有接口进行远程访问 SERVER_NAME=0.0.0.0 SERVER_PORT=8081 \ python gradio_server.py –flow-reverse –use-cpu-offload `Gradio UI 显示提示、分辨率、帧数、CFG 比例和种子的参数。对于Smashing访问，请检查浏览器中的网络选项卡，找到“/run/predict”端点并复制JSON负载。 ### DigitalOcean GPU Droplet 对于没有本地 GPU 硬件的团队，DigitalOcean GPU Droplet 提供 NVIDIA H100 和 A100 实例。使用以下cloud-init部署HunyuanVideo：` #

yam l #云配置包更新：true 套餐： - docker.io - nvidia-Container工具包运行命令： - systemctl 重新启动 docker - docker pull hunyuanvideo/hunyuanvideo:cuda_12 - docker run -d –gpus all –name hunyuan \ -p 8081:8081 -v /mnt/models:/models \ 混源视频/混源视频:cuda_12 \ python gradio_server.py –flow-reverse –use-cpu-offload ```` ## 基准/实例 RTX 4090 和数据中心 GPU 测试的社区基准（2026 年 3 月）： | 型号| 参数| 显存(720p) | 生成时间（5秒，RTX 4090）| 审美品质| |

浑元视频：12.1K+ 星标 — 生产部署指南 2026

模型文件转到ComfyUI/models/ # - text_encoders/clip_l.safetensors # - text_encoders/llava_llama3_vision.safetensors #-diffusion_models/hunyuan_video_720p_bf16.safetensors # - vae/hunyuan_video_vae_bf16.safetensors ````通过将 #

📦 出现在以下合集中

💬 留言讨论

模型文件转到ComfyUI/models/ # - text_encoders/clip_l.safetensors # - text_encoders/llava_llama3_vision.safetensors #-diffusion_models/hunyuan_video_720p_bf16.safetensors # - vae/hunyuan_video_vae_bf16.safetensors ````通过将 #

🔗 相关资源推荐

📦 出现在以下合集中

💬 留言讨论