Wan 2.1: 16.1K+ Stars — 오픈소스 비디오 생성 심층 분석 vs HunyuanVideo, CogVideo 2026

Wan 2.1은 Alibaba의 오픈소스 비디오 기반 모델로 SOTA 성능 제공. ComfyUI, Diffusers, Gradio 지원. T2V, I2V, 비디오 편집, 텍스트 생성을 1.3B 및 14B 파라미터로 제공.

  • ⭐ 16100
  • Apache-2.0
  • 업데이트 2026-05-19

{{< resource-info >}}

Wan 2.1 특집 이미지

소개 #

로컬에서 비디오 생성을 시도핸 모든 개발자는 같은 고통을 경험합니다. 모델이 자동차보다 비싼 GPU 하드웨어를 요구하거나, 출력 결과가 1990년대 슬라이드쇼처럼 보입니다. 2025년 초 Alibaba의 Wan 팀이 Wan 2.1을 공개했습니다 — RTX 4090에서 실행 가능한 1.3B 파라미터 모델과 함께, 16,100개 이상의 GitHub Star를 보유한 완전한 오픈소스 비디오 생성 스위트입니다. 이 가이드에서는 Wan 2.1이 무엇인지, 어떻게 작동하는지, HunyuanVideo 및 CogVideo와 어떻게 비교되는지, 그리고 프로덕션 환경에서 실행하는 방법을 설명합니다.

Wan 2.1이란? #

Wan 2.1은 2025년 2월 Alibaba의 Wan 팀이 공개한 고급 대규모 비디오 생성 모델 스위트입니다. T2V(텍스트-투-비디오), I2V(이미지-투-비디오), 비디오 편집, 텍스트-투-이미지, FLF2V(첫/마지막 프레임-투-비디오), 비디오-투-오디오 생성 기능을 제공합니다. 14B 모델(최고 품질)과 1.3B 모델(소비자용 GPU 최적화) 두 가지 파라미터 크기로 제공됩니다. Wan 2.1은 비디오 프레임 내 중국어와 영어 텍스트를 생성할 수 있는 최초의 오픈소스 비디오 모델입니다.

Wan 2.1 로고

Wan 2.1 작동 방식 #

아키텍처 개요 #

Wan 2.1은 Stable Diffusion 3과 동일한 Diffusion Transformer(DiT) 패러다임에 Flow Matching을 사용합니다. 아키텍처의 세 가지 핵심 구성 요소는 다음과 같습니다:

Wan-VAE(비디오 변분 오토인코더): 256배 시공간 압축을 제공하는 3D 인과 VAE입니다. 일반 이미지 VAE와 달리 Wan-VAE는 시간적 인과성을 유지합니다 — 각 프레임이 이전 프레임만 참조합니다. 이로 인해 초기 비디오 생성 모델에서 흔했던 깜빡임 아티팩트가 제거됩니다. Wan-VAE는 1080P 비디오를 시간 정보 손실 없이 임의 길이로 인코딩할 수 있습니다.

Diffusion Transformer(DiT): 생성 백본은 교차 어텐션을 통한 텍스트 조건을 사용하는 표준 트랜스포머입니다. T5 인코더 임베딩을 통해 텍스트 가이드를 적용하고, 모든 블록에서 공유되는 MLP 변조를 사용합니다. 각 블록은 별도의 편향 세트를 학습하여 동일한 파라미터 규모에서 품질을 향상시킵니다.

T5 텍스트 인코더: Wan 2.1은 UMT5-XXL 텍스트 인코더를 사용합니다. 영어와 중국어 텍스트 모두에서 학습되어 네이티브 이중 언어 이해 기능을 제공합니다.

모델 사양 #

모델파라미터해상도VRAM(단일 GPU)일반 생성 시간
T2V-1.3B1.3B480P8.19 GBRTX 4090 약 4분
T2V-14B14B480P / 720P40–48 GB (480P fp8)H100 약 4분 (480P)
I2V-14B14B480P / 720P65–80 GB (720P)H100 약 10–12분 (720P)
FLF2V-14B14B720P65–80 GBH100 약 10–15분

14B 모델은 차원 5120, 40개 어텐션 헤드, 40개 트랜스포머 레이어를 사용합니다. 1.3B 모델은 차원 1536, 12개 헤드, 30개 레이어로 축소됩니다.

설치 및 설정 #

사전 요구 사항 #

  • CUDA 지원 NVIDIA GPU(1.3B는 8GB+, 14B는 40GB+)
  • Python 3.10+
  • CUDA 12.1+

기본 설치 #

# 저장소 클론
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

# 가상 환경 생성
python -m venv venv
source venv/bin/activate

# 의존성 설치(torch >= 2.4.0 필요)
pip install -r requirements.txt

requirements.txt 내용:

torch>=2.4.0
torchvision>=0.19.0
opencv-python>=4.9.0.80
diffusers>=0.31.0
transformers>=4.49.0
accelerate>=1.1.1
flash_attn
gradio>=5.0.0
numpy>=1.23.5,<2

Poetry로 설치(대안) #

# 의존성 설치
poetry install

# flash-attn 빌드 실패 시
poetry run pip install --upgrade pip setuptools wheel
poetry run pip install flash-attn --no-build-isolation
poetry install

모델 다운로드 #

HuggingFace CLI를 사용한 모델 다운로드:

# huggingface-cli 설치
pip install "huggingface_hub[cli]"

# 14B 텍스트-투-비디오 모델 다운로드
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

# 1.3B 소비자용 GPU 모델 다운로드
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

# VAE 다운로드
huggingface-cli download Wan-AI/Wan2.1-VAE --local-dir ./Wan2.1-VAE

# 텍스트 인코더 다운로드
huggingface-cli download Wan-AI/Wan2.1-T5 --local-dir ./Wan2.1-T5

ModelScope로 더 빠른 다운로드:

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B

첫 비디오 생성(T2V-1.3B) #

python generate.py \
  --task t2v-1.3B \
  --size 832*480 \
  --ckpt_dir ./Wan2.1-T2V-1.3B \
  --prompt "일출 시 조용한 산악 호수, 물 위로 안개가 피어오르고 칩라가 천천히 오른쪽으로 패닝"

첫 비디오 생성(T2V-14B) #

python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "편안한 복싱 장비와 밝은 장갑을 낀 두 마리의 의인화된 고양이가 스포트라이트 묵에서 격렬히 싸운다."

Gradio Web UI 실행 #

cd gradio

# 단일 GPU로 T2V 14B 실행
python t2v_14B_singleGPU.py \
  --prompt_extend_method 'dashscope' \
  --ckpt_dir ./Wan2.1-T2V-14B

# T2V 1.3B 실행(가벼움, 소비자용 GPU용)
python t2v_1.3B_singleGPU.py \
  --ckpt_dir ./Wan2.1-T2V-1.3B

ComfyUI, Diffusers 등과의 통합 #

ComfyUI 통합 #

Wan 2.1은 네이티브 ComfyUI 통합을 제공합니다. Kijai의 ComfyUI-WanVideoWrapper 커스텀 노드를 권장합니다:

# 커스텀 노드 설치
cd ComfyUI/custom_nodes
git clone https://github.com/Kijai/ComfyUI-WanVideoWrapper.git
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git
git clone https://github.com/kijai/ComfyUI-KJNodes.git

# 노드 의존성 설치
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt

모델 파일을 적절한 ComfyUI 디렉토리에 배치:

# 확산 모델 -> ComfyUI/models/diffusion_models
# Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
# Wan2_1-T2V-1_3B_fp32.safetensors

# 텍스트 인코더 -> ComfyUI/models/text_encoders
# umt5-xxl-enc-bf16.safetensors

# VAE -> ComfyUI/models/vae
# Wan2_1_VAE_fp32.safetensors

Wan 2.1 ComfyUI 워크플로우

Diffusers 통합 #

import torch
from diffusers.utils import export_to_video
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

# 모델 로드
model_id = "Wan-AI/Wan2.1-T2V-14B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(
    model_id, subfolder="vae", torch_dtype=torch.float32
)

# 스케줄러 구성
flow_shift = 5.0  # 720P는 5.0, 480P는 3.0
scheduler = UniPCMultistepScheduler(
    prediction_type='flow_prediction',
    use_flow_sigmas=True,
    num_train_timesteps=1000,
    flow_shift=flow_shift
)

# 파이프라인 구성
pipe = WanPipeline.from_pretrained(
    model_id, vae=vae, torch_dtype=torch.bfloat16
)
pipe.scheduler = scheduler
pipe.to("cuda")

# 생성
prompt = (
    "부엌에서 함께 케이크를 굽는 고양이와 개. "
    "고양이는 밀가루를 정성껏 재고, 개는 나무 숟가락으로 반죽을 저으며 "
    "햇살이 창문으로 들어오는 아늑한 부엌입니다."
)

negative_prompt = (
    "밝은 톤, 과다 노출, 정적, 흐릿한 디테일, 자막, "
    "스타일, 작품, 그림, 이미지, 정적, 전체적으로 회색, "
    "최저 품질, 낮은 품질, JPEG 압축 잔여물"
)

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=720,
    width=1280,
    num_frames=81,
    guidance_scale=5.0,
).frames[0]

export_to_video(output, "output.mp4", fps=16)

FSDP + xDiT 다중 GPU 추론 #

# xDiT 설치
pip install "xfuser>=0.4.1"

# 8개 GPU에서 실행
torchrun --nproc_per_node=8 generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --dit_fsdp --t5_fsdp \
  --ulysses_size 8 \
  --prompt "프롬프트 입력"

이미지-투-비디오 생성 #

python generate.py \
  --task i2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-I2V-14B-720P \
  --image examples/i2v_input.JPG \
  --prompt "여름 핳핳 휴양지 스타일, 선글라스를 낀 하얀 고양이가 서핑보드 위에 앉아 있다."

첫/마지막 프레임-투-비디오(FLF2V) #

python generate.py \
  --task flf2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-FLF2V-14B-720P \
  --first_frame examples/flf2v_input_first_frame.png \
  --last_frame examples/flf2v_input_last_frame.png \
  --prompt "CG 애니메이션 스타일, 파란색 작은 새가 지면에서 이륙하여 날개를 퍼덕인다."

프롬프트 확장 #

# 로컬 Qwen 모델 사용
python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "피아노를 치는 고양이" \
  --use_prompt_extend \
  --prompt_extend_model Qwen/Qwen2.5-7B-Instruct

# DashScope API 사용
DASH_API_KEY=your_key python generate.py \
  --task t2v-14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --prompt "피아노를 치는 고양이" \
  --use_prompt_extend \
  --prompt_extend_method 'dashscope'

벤치마크 / 실제 사용 사례 #

VBench 성능 #

Wan 2.1은 1,035개 낸부 프롬프트를 사용하여 14개 주요 차원과 26개 하위 차원에서 평가되었습니다. 14B 모델은 VBench 가중 점수 0.724를 달성하여 당시 모든 오픈소스 및 클로즈드 소스 경쟁자를 능가했습니다.

Wan 2.1 VBench vs SOTA

GPU 성능 벤치마크 #

다양한 GPU에서의 성능(총 시간 초 / 피크 GPU 메모리 GB):

GPU1.3B 480P14B 480P14B 720P
RTX 4090 (24GB)281초 / 8.2GB지원 안됨지원 안됨
A5000 (24GB)462초 / 8.2GB지원 안됨지원 안됨
A40 (48GB)350초 / 8.2GB1083초 / 42GB지원 안됨
A100 (80GB)170초 / 8.2GB523초 / 48GB~850초 / 72GB
L40 (48GB)290초 / 8.2GB859초 / 42GB지원 안됨
H100 (80GB)85초 / 8.2GB284초 / 48GB~580초 / 72GB

프로덕션 비용 #

2026년 초 클라우드 GPU 비디오 생성 비용:

모델해상도길이생성 시간GPU 비용클립당 비용
Wan 2.1 1.3B480P5초~4분RTX 4090 로컬~$0.02
Wan 2.1 14B480P5초~4분$2.50/시 (H100)~$0.17
Wan 2.1 14B720P5초~10분$2.50/시 (H100)~$0.42
HunyuanVideo720P5초~20분$3.49/시 (H200)~$0.70

실제 사용 사례 #

소셜 미디어 콘텐츠 파이프라인: 5초 480P 클립은 H100에서 약 $0.17입니다. 월 100개 기준 총 클라우드 비용은 $20 미만 — 전용 API 서비스의 $30–80/월에 비해 경제적입니다.

광고 크리에이티브 프로토타이핑: Wan 2.1의 이중 언어 텍스트 생성으로 동아시아 시장에서 중국어/일본어 텍스트 오버레이가 필요한 경우에 유리합니다.

영화 프리비주얼라이제이션: FLF2V를 통해 스토리보드 아티스트가 두 개의 키프레임 사이에 애니메이션을 생성할 수 있습니다.

고급 사용법 / 프로덕션 강화 #

FP8 양자화로 VRAM 절감 #

# FP8 양자화로 VRAM 약 20% 감소
python generate.py \
  --task t2v-14B \
  --size 832*480 \
  --ckpt_dir ./Wan2.1-T2V-14B \
  --offload_model True \
  --t5_cpu \
  --prompt "프롬프트 입력"

VRAM 최적화 플래그 #

플래그설명VRAM 영향
--offload_model True스텝 간 트랜스포머를 CPU로 오프로드-15–20GB
--t5_cpuT5 인코더를 CPU에서 실행-2–3GB
--dit_fsdpDiT를 GPU 간 샤딩GPU 수로 나눔
--ulysses_size N시퀀스 병렬화 사용선형 감소

Docker 배포 #

FROM nvidia/cuda:12.1.0-devel-ubuntu22.04

WORKDIR /app
RUN apt-get update && apt-get install -y python3-pip git

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .
RUN huggingface-cli download Wan-AI/Wan2.1-T2V-14B \
    --local-dir ./Wan2.1-T2V-14B

EXPOSE 7860
CMD ["python", "gradio/t2v_14B_singleGPU.py", "--ckpt_dir", "./Wan2.1-T2V-14B"]

빌드 및 실행:

docker build -t wan2.1 .
docker run --gpus all -p 7860:7860 wan2.1

생성 작업 모니터링 #

import time
import psutil
import torch

def generate_with_monitoring(prompt, **kwargs):
    process = psutil.Process()
    start_mem = process.memory_info().rss / 1024**3
    start_time = time.time()
    
    result = generate_video(prompt, **kwargs)
    
    elapsed = time.time() - start_time
    peak_mem = process.memory_info().rss / 1024**3
    gpu_mem = torch.cuda.max_memory_allocated() / 1024**3
    
    print(f"생성 완료: {elapsed:.1f}초")
    print(f"피크 GPU 메모리: {gpu_mem:.1f} GB")
    print(f"RAM 증가: {peak_mem - start_mem:.1f} GB")
    
    return result

LoRA 파인튜닝 #

# DiffSynth-Studio 설치
pip install diffsynth-studio

# 스타일 LoRA 학습
python -m diffsynth.train \
  --model_name wan2.1-t2v-14b \
  --dataset_path ./my_style_videos \
  --output_path ./wan_lora_output \
  --learning_rate 1e-4 \
  --num_train_steps 1000

대안과의 비교 #

기능Wan 2.1HunyuanVideoCogVideoX-1.5-5BOpen-Sora 2.0
파라미터1.3B / 14B~13B5B7B
최소 VRAM (T2V)8.19GB (1.3B)12GB (양자화)5GB (diffusers)24GB
최대 해상도720P1080P1360x768768P
최대 길이~5초 (81 프레임)~5초10초~5초
생성 속도 (H100, 720P)~10분~20분~9분~15분
이중 언어 텍스트예 (중+영)아니오아니오아니오
I2V 지원예 (14B)예 (T2I2V)
비디오 편집예 (VACE)아니오아니오아니오
라이선스Apache-2.0Apache-2.0Apache-2.0Apache-2.0
VBench 점수0.7240.710.680.73
모션 일관성8/109/107.5/108/10
소비자 GPU 지원예 (1.3B)부분 (양자화)예 (diffusers)아니오
ComfyUI 지원네이티브커뮤니티커뮤니티커뮤니티
학습 비용미공개미공개미공개$200K

각 모델 선택 시점 #

  • Wan 2.1: 품질, 속도, 접근성의 최적 균형. 이중 언어 텍스트, 소비자 GPU 지원(1.3B) 또는 네이티브 ComfyUI 통합이 필요할 때.
  • HunyuanVideo: 최대 모션 사실감과 시각적 충실도가 최우선이고 H200급 하드웨어에 접근 가능할 때.
  • CogVideoX-1.5-5B: 최저 VRAM 사용 또는 10초 클립 생성이 필요할 때.
  • Open-Sora 2.0: 학습 효율적 파이프라인($200K 학습 비용 문서화) 또는 FLUX 통합 T2I2V 워크플로우가 필요할 때.

한계 / 정직한 평가 #

Wan 2.1은 만능 도구가 아닙니다. 다음은 공개되지 않은 제한 사항입니다:

클립 길이는 약 5초로 하드캡됩니다. 81 프레임 16 FPS로 학습되었습니다. 슬라이딩 윈도우나 자기회귀 방식으로 더 긴 클립을 생성하면 81 프레임 이후 품질 저하가 발생합니다.

14B 모델의 720P는 H100 전용입니다. 공식 문서에 720P 지원이 명시되어 있지만 실제로는 65–80GB VRAM이 필요합니다. RTX 4090(24GB)은 양자화 후에도 720P를 실행할 수 없습니다. 소비자용 GPU의 현실적인 한도는 480P입니다.

물리 시뮬레이션이 제한적입니다. 모션 일관성은 양호하지만 복잡한 물리적 상호작용에서 아티팩트가 나타납니다. Kling 2.1과 같은 모델이 물리가 중요한 장면에서 더 설득력 있습니다.

1.3B 모델은 품질 트레이드오프가 있습니다. 빠르고 접근성이 좋지만 프롬프트 충실도가 14B 모델에 비해 눈에 띄게 약합니다.

프롬프트 확장이 지연 시간을 추가합니다. Qwen 기반 프롬프트 확장은 품질을 향상시키지만 생성당 30–60초가 추가됩니다.

최초 실행 웜업 시간. 첫 추론 시 모델 로딩과 컴파일에 5–10분이 소요될 수 있습니다.

자주 묻는 질문 #

Q: Wan 2.1을 RTX 3060 12GB에서 실행할 수 있나요?

1.3B 모델은 8.19GB VRAM이 필요하므로 RTX 3060 12GB에서 FP16 정밀도로 480P를 실행할 수 있습니다. 14B 모델은 불가능합니다. 추가 여유 공간이 필요하면 커뮤니티 GGUF 또는 FP8 양자화된 1.3B 모델을 사용하세요.

Q: Wan 2.1은 Sora나 Kling과 어떻게 비교되나요?

Sora와 Kling과 같은 클로즈드 소스 모델이 시간적 일관성, 물리 이해, 최대 클립 길이(60초 이상)에서 여전히 앞섭니다. Wan 2.1의 강점은 오픈 웨이트, 로컬 실행, 제로 API 비용입니다. 5초 클립의 경우 격차가 상당히 줄었습니다.

Q: 1.3B와 14B 모델의 차이는 무엇인가요?

1.3B 모델은 14B 모델에서 증류되어 속도에 최적화되었습니다. 소비자용 GPU에서 실행되지만 세부 디테일과 프롬프트 충실도가 약합니다. 14B 모델은 전체 품질 버전으로 모션 다이낵, 텍스트 렌더링, 복잡한 장면 처리에서 현저히 우수합니다.

Q: Wan 2.1이 비디오-투-비디오 편집을 지원하나요?

예, VACE(Video Auto Content Editing) 확장을 통해 지원합니다. VACE는 레퍼런스-투-비디오, 비디오-투-비디오 편집, 마스크드 비디오 편집을 지원합니다. 1.3B 및 14B VACE 모델 모두 사용 가능합니다.

Q: Wan 2.1을 상업적으로 사용할 수 있나요?

예. Wan 2.1은 Apache 2.0 라이선스로 상업적 사용, 수정, 배포를 허용합니다. 생성된 콘텐츠에 대한 모든 권리를 보유합니다.

Q: 14B 모델의 VRAM 사용을 줄이려면 어떻게 해야 하나요?

--offload_model True, --t5_cpu, FP8 양자화를 사용하면 VRAM을 약 35GB까지 줄일 수 있습니다.

Q: 생성된 비디오에 깜빡임이나 불일치한 모션이 있으면 어떻게 하나요?

Wan 2.1 VAE를 사용하고 있는지 확인하세요. 정확히 81 프레임을 사용하고 flow_shift를 720P에는 5.0, 480P에는 3.0으로 설정하세요.

Q: Wan 2.1이 AMD GPU나 Apple Silicon을 지원하나요?

공식 지원은 CUDA 전용입니다. AMD용 커뮤니티 포트가 있지만 성능과 안정성은 다릅니다. Apple Silicon은 대역폭 제한으로 권장하지 않습니다.

결론 #

Wan 2.1은 접근 가능한 하드웨어에서 프로덕션 품질 출력을 제공합니다. 1.3B 모델은 비디오 생성을 민주화하고 14B 모델은 프로페셔널 워크플로우에서 전용 서비스와 경쟁합니다. 16,100개 이상의 GitHub Star, 활발한 커뮤니티 기여, Apache-2.0 라이선스를 갖춘 Wan 2.1은 2026년 비디오 생성 파이프라인을 구축하는 실용적인 선택입니다.

액션 아이템:

  1. 저장소를 클론하고 오늘 바로 로컬 GPU에서 1.3B 모델을 실행하세요
  2. 클라우드 H100 하드웨어에서 14B 모델을 벤치마크하세요
  3. Wan Discord 또는 GitHub Discussions에 참여하세요
  4. ComfyUI 통합을 평가하세요

dibi8 Telegram 그룹에 가입하여 주간 AI 도구 심층 분석과 프로덕션 배포 팁을 받아보세요.

추천 호스팅 및 인프라 #

위 도구들을 프로덕션에 배포하려면 안정적인 인프라가 필요합니다. dibi8가 직접 사용 중인 두 가지 옵션:

  • DigitalOcean — 60일 $200 무료 크레딧, 14개 이상 글로벌 리전. 오픈소스 AI 도구의 기본 선택.
  • HTStack — 홍콩 VPS, 중국 본토 저지연 접속. dibi8.com 호스팅 중인 검증된 IDC.

제휴 링크 — 추가 비용 없이 dibi8 운영을 지원합니다.

출처 및 추가 자료 #

💬 댓글 토론