Wan 2.1: 16.1K+ Stars — 开源视频生成深度解析 vs HunyuanVideo、CogVideo 2026

Wan 2.1 是阿里巴巴开源的视频基础模型套件,具备 SOTA 性能。支持 ComfyUI、Diffusers 和 Gradio。涵盖 T2V、I2V、视频编辑和文本生成,提供 1.3B 和 14B 两种参数规模。

  • ⭐ 16100
  • Apache-2.0
  • 更新于 2026-05-19

{{< resource-info >}}

Wan 2.1 封面图

简介 #

尝试过本地视频生成的开发者都面临同样的困境:要么模型需要昂贵到可以买一辆车的 GPU 硬件,要么生成的画面看起来像上世纪 90 年代的幻灯片。2025 年初,阿里巴巴 Wan 团队发布了 Wan 2.1 —— 一套完全开源的视频生成模型套件,彻底改变了这一局面。凭借 16,100+ GitHub Stars 和一个能在 RTX 4090 上运行的 1.3B 参数模型,Wan 2.1 成为当今最易于获取的高质量视频生成模型。本 wan 2.1 tutorial 将深入介绍 Wan 2.1 的原理、安装方式、与 HunyuanVideo、CogVideo 和 Open-Sora 的对比,以及生产环境部署方案。如果你想了解最新的 ai video model 技术栈,这份 setup 指南是最好的起点。无论是 wan video generation 新手还是经验丰富的从业者,都能从这份 wan setup 指南中获得实用的部署经验。

什么是 Wan 2.1? #

Wan 2.1 是阿里巴巴 Wan 团队于 2025 年 2 月发布的开源大规模视频基础模型套件。它支持文生视频(T2V)、图生视频(I2V)、视频编辑、文生图、首尾帧生视频(FLF2V)和视频生音频等多种任务。该套件提供两种参数规模 —— 14B 模型追求最高质量,1.3B 模型针对消费级 GPU 优化。Wan 2.1 是首款能够在视频画面中生成中英文文本的开源视频模型,这一能力在 2026 年依然少见。作为 wan video generation 领域的领先开源方案,Wan 2.1 在 VBench 综合评测中获得 0.724 的加权高分,超越了当时所有开源和闭源竞品。对于希望部署 ai video model 的开发团队而言,Wan 2.1 提供了从消费级到数据中心级的完整硬件适配方案。

Wan 2.1 Logo

Wan 2.1 的工作原理 #

架构概述 #

Wan 2.1 基于 Diffusion Transformer(DiT)范式,采用 Flow Matching 框架,与 Stable Diffusion 3 及后续图像生成模型属于同一家族。架构包含三个核心组件:

Wan-VAE(视频变分自编码器): 一种 3D 因果 VAE,对视频进行 256 倍时空压缩。与普通图像 VAE 不同,Wan-VAE 保持时间因果性 —— 即每一帧只关注之前的帧,而非未来的帧。这消除了早期视频生成模型中常见的画面闪烁伪影。Wan-VAE 可以编码任意长度的 1080P 视频而不丢失时间信息,使其适用于超出基础模型 81 帧生成窗口的长视频任务。

Diffusion Transformer(DiT): 生成主干使用标准 Transformer,通过交叉注意力进行文本条件控制。每个 Transformer 块处理时空 patch,并通过 T5 编码器嵌入应用文本引导。MLP 调制使用跨所有块共享的 MLP,每个块学习一组独立的偏置,这一优化在相同参数量下提升了质量。

T5 文本编码器: Wan 2.1 使用 UMT5-XXL 文本编码器进行多语言提示理解。该编码器在中英文双语数据上训练,使 Wan 2.1 具备原生双语理解能力,无需提示翻译技巧。

模型规格 #

模型参数量分辨率显存(单 GPU)典型生成时间
T2V-1.3B1.3B480P8.19 GBRTX 4090 约 4 分钟
T2V-14B14B480P / 720P40–48 GB (480P fp8)H100 约 4 分钟 (480P)
I2V-14B14B480P / 720P65–80 GB (720P)H100 约 10–12 分钟 (720P)
FLF2V-14B14B720P65–80 GBH100 约 10–15 分钟

14B 模型的维度为 5120,40 个注意力头,40 层 Transformer。1.3B 模型缩减至维度 1536,12 个注意力头,30 层。

安装与配置 #

前置要求 #

  • 支持 CUDA 的 NVIDIA GPU(1.3B 需 8GB+,14B 需 40GB+)
  • Python 3.10+
  • CUDA 12.1+

基础安装 #

# 克隆仓库
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

# 创建虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖(需要 torch >= 2.4.0)
pip install -r requirements.txt

requirements.txt 包含:

torch>=2.4.0
torchvision>=0.19.0
opencv-python>=4.9.0.80
diffusers>=0.31.0
transformers>=4.49.0
accelerate>=1.1.1
flash_attn
gradio>=5.0.0
numpy>=1.23.5,<2

使用 Poetry 安装(可选) #

# 安装依赖
poetry install

# 如果 flash-attn 构建失败
poetry run pip install --upgrade pip setuptools wheel
poetry run pip install flash-attn --no-build-isolation
poetry install

模型下载 #

使用 HuggingFace CLI 下载模型:

# 安装 huggingface-cli
pip install "huggingface_hub[cli]"

# 下载 14B 文生视频模型
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

# 下载 1.3B 消费级 GPU 模型
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

# 下载 VAE
huggingface-cli download Wan-AI/Wan2.1-VAE --local-dir ./Wan2.1-VAE

# 下载文本编码器
huggingface-cli download Wan-AI/Wan2.1-T5 --local-dir ./Wan2.1-T5

在开始 wan setup 之前,请确保系统已安装 CUDA 12.1 或更高版本,并且 PyTorch 版本不低于 2.4.0。如果系统中有多个 Python 版本,建议使用虚拟环境隔离依赖。对于 Windows 用户,WSL2 是推荐的运行环境,因为部分依赖项(如 flash-attn)在原生 Windows 上的编译支持有限。国内用户可使用 ModelScope 加速下载:

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B

首次视频生成(T2V-1.3B) #

python generate.py \
  --task t2v-1.3B \
  --size 832*480 \
  --ckpt_dir ./Wan2.1-T2V-1.3B \
  --prompt "日出时分宁静的山间湖泊,水面上雾气缭绕,镜头缓慢向右平移"

首次视频生成(T2V-14B) #

python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "两只穿着舒适拳击装备、戴着亮色手套的拟人化猫咪在聚光灯下的舞台上激烈对战。"

运行 Gradio Web UI #

cd gradio

# 单 GPU 运行 T2V 14B
python t2v_14B_singleGPU.py \
  --prompt_extend_method 'dashscope' \
  --ckpt_dir ./Wan2.1-T2V-14B

# 运行 T2V 1.3B(更轻量,适合消费级 GPU)
python t2v_1.3B_singleGPU.py \
  --ckpt_dir ./Wan2.1-T2V-1.3B

与 ComfyUI、Diffusers 等工具的集成 #

ComfyUI 集成 #

Wan 2.1 原生支持 ComfyUI。推荐使用 Kijai 开发的 ComfyUI-WanVideoWrapper 自定义节点:

# 安装自定义节点
cd ComfyUI/custom_nodes
git clone https://github.com/Kijai/ComfyUI-WanVideoWrapper.git
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git
git clone https://github.com/kijai/ComfyUI-KJNodes.git

# 安装节点依赖
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt

下载模型文件并放入对应目录:

# 扩散模型 -> ComfyUI/models/diffusion_models
# Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
# Wan2_1-T2V-1_3B_fp32.safetensors

# 文本编码器 -> ComfyUI/models/text_encoders
# umt5-xxl-enc-bf16.safetensors

# VAE -> ComfyUI/models/vae
# Wan2_1_VAE_fp32.safetensors

Wan 2.1 ComfyUI 工作流

Diffusers 集成 #

Wan 2.1 可通过 HuggingFace Diffusers 使用:

import torch
from diffusers.utils import export_to_video
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

# 加载模型
model_id = "Wan-AI/Wan2.1-T2V-14B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(
    model_id, subfolder="vae", torch_dtype=torch.float32
)

# 配置调度器
flow_shift = 5.0  # 720P 用 5.0,480P 用 3.0
scheduler = UniPCMultistepScheduler(
    prediction_type='flow_prediction',
    use_flow_sigmas=True,
    num_train_timesteps=1000,
    flow_shift=flow_shift
)

# 构建流水线
pipe = WanPipeline.from_pretrained(
    model_id, vae=vae, torch_dtype=torch.bfloat16
)
pipe.scheduler = scheduler
pipe.to("cuda")

# 生成
prompt = (
    "一只猫和一只狗在厨房里一起烤蛋糕。"
    "猫正在仔细称量面粉,狗则用木勺搅拌面糊。"
    "厨房很温馨,阳光透过窗户洒进来。"
)

negative_prompt = (
    "色调过亮、过曝、静态、细节模糊、字幕、"
    "风格化、画作、图像、静态、整体灰暗、最差质量、"
    "低质量、JPEG压缩残留、丑陋、不完整"
)

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=720,
    width=1280,
    num_frames=81,
    guidance_scale=5.0,
).frames[0]

export_to_video(output, "output.mp4", fps=16)

FSDP + xDiT 多 GPU 推理 #

生产环境部署可使用分布式推理:

# 安装 xDiT
pip install "xfuser>=0.4.1"

# 8 GPU 运行
torchrun --nproc_per_node=8 generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --dit_fsdp --t5_fsdp \
  --ulysses_size 8 \
  --prompt "你的提示词"

图生视频(I2V) #

python generate.py \
  --task i2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-I2V-14B-720P \
  --image examples/i2v_input.JPG \
  --prompt "夏日海滩度假风格,一只戴着墨镜的白猫坐在冲浪板上。"

首尾帧生视频(FLF2V) #

python generate.py \
  --task flf2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-FLF2V-14B-720P \
  --first_frame examples/flf2v_input_first_frame.png \
  --last_frame examples/flf2v_input_last_frame.png \
  --prompt "CG 动画风格,一只蓝色小鸟从地面起飞,拍打着翅膀。"

提示词扩展 #

Wan 2.1 提供可选的提示词扩展功能,使用 Qwen 模型将短提示扩展为详细描述:

# 使用本地 Qwen 模型
python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "一只猫在弹钢琴" \
  --use_prompt_extend \
  --prompt_extend_model Qwen/Qwen2.5-7B-Instruct

# 使用 DashScope API
DASH_API_KEY=your_key python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "一只猫在弹钢琴" \
  --use_prompt_extend \
  --prompt_extend_method 'dashscope'

基准测试 / 实际应用场景 #

VBench 性能 #

Wan 2.1 使用 1,035 个内部提示词,在 14 个主要维度和 26 个子维度上进行了评估。14B 模型的 VBench 加权得分达到 0.724,超越了当时所有开源和闭源竞品。

Wan 2.1 VBench 对比

GPU 性能基准 #

不同 GPU 上的性能表现(总时间 秒 / 峰值显存 GB):

GPU1.3B 480P14B 480P14B 720P
RTX 4090 (24GB)281s / 8.2GB不支持不支持
A5000 (24GB)462s / 8.2GB不支持不支持
A40 (48GB)350s / 8.2GB1083s / 42GB不支持
A100 (80GB)170s / 8.2GB523s / 48GB~850s / 72GB
L40 (48GB)290s / 8.2GB859s / 42GB不支持
H100 (80GB)85s / 8.2GB284s / 48GB~580s / 72GB

实际生产成本 #

2026 年初云 GPU 视频生成的成本估算:

模型分辨率时长生成时间GPU 成本每条成本
Wan 2.1 1.3B480P5s~4 分钟RTX 4090 本地~$0.02 (电费)
Wan 2.1 14B480P5s~4 分钟$2.50/时 (H100)~$0.17
Wan 2.1 14B720P5s~10 分钟$2.50/时 (H100)~$0.42
HunyuanVideo720P5s~20 分钟$3.49/时 (H200)~$0.70

生产应用案例 #

社交媒体内容流水线: Wan 2.1 14B 在 H100 上生成 5 秒 480P 片段成本约 $0.17。每月 100 条的总云支出低于 $20,而专有 API 服务通常收费 $30–80/月。

广告创意原型: Wan 2.1 的双语文本生成能力使其在东亚市场极具价值,中文或日文文字叠加在视频中无需后期处理。没有其他开源模型能在视频中原生生成中文字符。对于跨境电商和品牌营销团队而言,这是无可替代的功能 —— 传统方案需要先生成视频再叠加字幕,而 Wan 2.1 可以直接在画面中渲染清晰的中文字体。

电影预可视化: FLF2V(首尾帧生视频)任务允许故事板艺术家在两个关键帧之间生成动画,为场景规划制作动态草图。导演可以上传手绘分镜的首尾两帧,让模型自动补全中间的运动过程,大幅提升前期创作效率。

短视频批量生产: Wan 2.1 的 1.3B 模型在 RTX 4090 上约 4 分钟可产出一条 5 秒 480P 视频,配合提示词批处理脚本,单日可生产数百条短视频素材,满足社交媒体运营的素材需求。

高级用法 / 生产环境加固 #

FP8 量化降低显存 #

在显存有限的设备上运行 14B 模型:

# FP8 量化可减少约 20% 显存
python generate.py \
  --task t2v-14B \
  --size 832*480 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --offload_model True \
  --t5_cpu \
  --prompt "你的提示词"

显存优化参数 #

参数说明显存影响
--offload_model True步骤间将 Transformer 卸载到 CPU-15–20GB
--t5_cpu在 CPU 上运行 T5 编码器-2–3GB
--dit_fsdp跨 GPU 分片 DiT除以 GPU 数量
--ulysses_size N使用序列并行线性降低

Docker 部署 #

FROM nvidia/cuda:12.1.0-devel-ubuntu22.04

WORKDIR /app
RUN apt-get update && apt-get install -y python3-pip git

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .
RUN huggingface-cli download Wan-AI/Wan2.1-T2V-14B \
    --local-dir ./Wan2.1-T2V-14B

EXPOSE 7860
CMD ["python", "gradio/t2v_14B_singleGPU.py", "--ckpt_dir", "./Wan2.1-T2V-14B"]

构建与运行:

docker build -t wan2.1 .
docker run --gpus all -p 7860:7860 wan2.1

生成任务监控 #

生产环境可用监控脚本包装生成过程:

import time
import psutil
import torch

def generate_with_monitoring(prompt, **kwargs):
    process = psutil.Process()
    start_mem = process.memory_info().rss / 1024**3
    start_time = time.time()
    
    result = generate_video(prompt, **kwargs)
    
    elapsed = time.time() - start_time
    peak_mem = process.memory_info().rss / 1024**3
    gpu_mem = torch.cuda.max_memory_allocated() / 1024**3
    
    print(f"生成完成,耗时 {elapsed:.1f} 秒")
    print(f"峰值 GPU 显存: {gpu_mem:.1f} GB")
    print(f"RAM 增量: {peak_mem - start_mem:.1f} GB")
    
    return result

LoRA 微调 #

DiffSynth-Studio 等社区工具支持 Wan 2.1 的 LoRA 训练:

# 安装 DiffSynth-Studio
pip install diffsynth-studio

# 训练风格 LoRA
python -m diffsynth.train \
  --model_name wan2.1-t2v-14b \
  --dataset_path ./my_style_videos \
  --output_path ./wan_lora_output \
  --learning_rate 1e-4 \
  --num_train_steps 1000

与替代方案对比 #

特性Wan 2.1HunyuanVideoCogVideoX-1.5-5BOpen-Sora 2.0
参数量1.3B / 14B~13B5B7B
最小显存 (T2V)8.19GB (1.3B)12GB (量化)5GB (diffusers)24GB
最大分辨率720P1080P1360x768768P
最大时长~5s (81 帧)~5s10s~5s
生成速度 (H100, 720P)~10 分钟~20 分钟~9 分钟~15 分钟
双语文本生成是(中英文)
图生视频是(14B)是 (T2I2V)
视频编辑是(VACE)
许可证Apache-2.0Apache-2.0Apache-2.0Apache-2.0
VBench 得分0.7240.710.680.73
运动连贯性8/109/107.5/108/10
消费级 GPU 支持是 (1.3B)部分 (量化)是 (diffusers)
ComfyUI 支持原生社区社区社区
训练成本未公开未公开未公开$200K

如何选择 #

  • Wan 2.1: 质量、速度和可及性的最佳平衡。如需双语文本、消费级 GPU 支持(1.3B)或原生 ComfyUI 集成,首选 Wan 2.1。
  • HunyuanVideo: 追求最大运动真实感和视觉保真度,且拥有 H200 级硬件时选择。
  • CogVideoX-1.5-5B: 需要最低显存占用或 10 秒片段生成时选择。
  • Open-Sora 2.0: 需要训练高效流水线($200K 训练成本已公开)或与 FLUX 集成的 T2I2V 工作流时选择。

局限性 / 诚实评估 #

Wan 2.1 并非万能。以下是规格表未提及的真实限制:

片段长度硬限制约 5 秒。 模型在 81 帧 16 FPS 上训练。通过滑动窗口或自回归方式生成更长片段会产生可见的漂移,81 帧后质量显著下降。

14B 模型的 720P 仅支持 H100。 官方文档列出 720P 支持,但实际需要 65–80GB 显存。RTX 4090(24GB)即使量化也无法运行 720P。消费级 GPU 的实际上限是 480P。

物理模拟能力有限。 虽然运动连贯性不错,但复杂物理交互(流体、布料、刚体碰撞)会出现伪影。Kling 2.1 等模型在处理物理密集型场景时更有说服力。

1.3B 模型有质量折衷。 它速度快且易于获取,但提示词遵循能力明显弱于 14B 模型。详细场景描述常被简化或忽略。

提示词扩展增加延迟。 可选的 Qwen 提示词扩展虽能提升质量,但每次生成增加 30–60 秒。批量处理时这一开销会快速累积。

首次运行预热时间。 初次推理时的模型加载和编译可能耗时 5–10 分钟。后续生成立即开始。

Wan 2.1 vs HunyuanVideo 详细对比 #

如果你正在犹豫选择 Wan 2.1 还是 HunyuanVideo,以下是关键决策因素。

从 wan vs hunyuanvideo 的角度分析,HunyuanVideo 在视觉保真度和运动真实感方面略胜一筹,其 13B 参数模型生成的视频细节更丰富、人体运动更自然。然而,HunyuanVideo 的代价是硬件门槛 —— 完整版需要 24GB+ 显存,720P 生产环境推荐 H200 GPU(141GB 显存)。相比之下,Wan 2.1 的 1.3B 模型仅需 8.19GB 显存即可运行,几乎任何独立显卡都能胜任。

生成速度方面,在 H100 上生成 5 秒 720P 视频,Wan 2.1 14B 约需 10–12 分钟,而 HunyuanVideo 需 15–25 分钟。对于成本敏感的场景,Wan 2.1 的单条视频成本约 $0.42,HunyuanVideo 约 $0.70–$1.05。

功能差异方面,Wan 2.1 是唯一原生支持中英文视频内文本生成的开源模型,同时具备 VACE 视频编辑、首尾帧生视频等扩展功能。HunyuanVideo 更专注于单一的高质量 T2V 和 I2V 生成,没有提供视频编辑工具链。

总结:如果你的首要目标是中文市场内容生产,或需要在消费级 GPU 上运行,选择 Wan 2.1。如果追求极致视觉质量且预算充足,选择 HunyuanVideo。

常见问题 #

Q: Wan 2.1 能在 RTX 3060 12GB 上运行吗?

1.3B 模型需要 8.19GB 显存,因此 RTX 3060 12GB 可以以 FP16 精度运行 480P。14B 模型无法运行。如需更多余量,可使用社区 GGUF 或 FP8 量化版的 1.3B 模型。

Q: Wan 2.1 与 Sora 或 Kling 相比如何?

Sora 和 Kling 等闭源模型在时间一致性、物理理解和最大片段长度(60+ 秒)方面仍然领先。Wan 2.1 的优势在于开放权重、本地执行和零 API 成本。对于 5 秒片段,差距已大幅缩小 —— Wan 2.1 14B 在 720P 下已接近中端专有服务质量。

Q: 1.3B 和 14B 模型有什么区别?

1.3B 模型是从 14B 模型蒸馏而来,针对速度优化。它可在消费级 GPU 上运行,但细节更柔和,提示词遵循能力较弱。14B 模型是完整质量版,在运动动态、文本渲染和复杂场景处理方面显著更好。

Q: Wan 2.1 支持视频到视频编辑吗?

支持,通过 VACE(Video Auto Content Editing)扩展。VACE 支持参考生视频、视频到视频编辑和遮罩视频编辑。提供 1.3B 和 14B 两种 VACE 模型。详见 VACE 用户指南。

Q: Wan 2.1 可以用于商业用途吗?

可以。Wan 2.1 采用 Apache 2.0 许可证,允许商业使用、修改和分发。你保留生成内容的全部权利。请注意此许可证适用于模型权重和代码,第三方依赖请单独审查。

Q: 如何降低 14B 模型的显存使用?

使用 --offload_model True 在扩散步骤间将 Transformer 移至 CPU,--t5_cpu 在 CPU 上运行文本编码器,FP8 量化可减少约 20% 显存。综合所有优化后,14B 480P 模型可在约 35GB 显存上运行。

Q: 生成的视频出现闪烁或运动不一致怎么办?

确保使用 Wan 2.1 VAE(而非通用 VAE)。闪烁通常来自不兼容的 VAE或错误的帧数设置。14B 模型建议使用恰好 81 帧以获得最佳效果。flow_shift 参数应为 720P 设置 5.0,480P 设置 3.0。

Q: Wan 2.1 支持 AMD GPU 或 Apple Silicon 吗?

官方仅支持 CUDA。社区有 ROCm (AMD) 移植版本,但性能和稳定性不一。Apple Silicon 不推荐,因为统一内存架构的带宽无法满足大 Transformer 模型需求。

结论 #

Wan 2.1 兑现了少数开源视频模型未能实现的承诺:在可获取的硬件上实现生产级输出。1.3B 模型让视频生成民主化,惠及爱好者和独立创作者;14B 模型则为专业工作流提供与专有服务竞争的质量。凭借 16,100+ GitHub Stars、活跃的社区贡献(ComfyUI 节点、LoRA 工具、加速库)和宽松的 Apache-2.0 许可证,Wan 2.1 是 2026 年构建视频生成流水线的务实选择。

行动清单:

  1. 今天就在本地 GPU 上克隆仓库并运行 1.3B 模型
  2. 在云 H100 硬件上针对你的应用场景基准测试 14B 模型
  3. 加入 Wan Discord 或 GitHub Discussions 获取社区支持
  4. 评估 ComfyUI 集成以开发可视化工作流

加入 dibi8 Telegram 群组,获取每周 AI 工具深度解析和生产部署技巧。

推荐部署与基础设施 #

上述工具想要落地生产,靠谱的基础设施是前提。dibi8 自己也在用的两个选择:

  • DigitalOcean — 新用户 60 天 $200 免费额度,14+ 全球节点。运行开源 AI 工具的首选。
  • HTStack — 香港 VPS,国内访问低延迟,dibi8.com 自己也跑在它上面,生产环境验证过。

Aff 链接 — 不增加你的成本,但能帮 dibi8 持续运营。

来源与延伸阅读 #

💬 留言讨论