Ultimate Vocal Remover: 24.7K+ Stars — 2026 완전 설치 가이드

Ultimate Vocal Remover (UVR)는 심층 신경망을 사용하여 보컬을 분리하는 GUI 애플리케이션입니다. demucs, RVC, GPT-SoVITS와 호환됩니다. Windows, macOS, Linux 설치, 모델 선택, 배치 처리 및 프로덕션 강화를 다룹니다.

  • ⭐ 24700
  • MIT
  • 업데이트 2026-05-19

{{< resource-info >}}

보컬을 반주 트랙에서 분리하는 작업은 예전에는 고가의 DAW 플러그인, 수동 EQ 조작, 또는 오디오 엔지니어 외주가 필요했다. 2026년 기준으로 오픈소스 딥러닝 모델은 일반 소비자용 하드웨어에서 60초 이내에 이 작업을 처리한다. **Ultimate Vocal Remover(UVR)**는 24,700개 이상의 GitHub 스타, Tkinter 기반 GUI, VR-Net, MDX-Net, MDX23C, Demucs 등의 최신 아키텍처 지원으로 이 분야를 선도하고 있다. 본 가이드는 세 가지 주요 플랫폼의 설치, 모델 선택 전략, 배치 처리 워크플로우, 그리고 RVC 및 GPT-SoVITS과의 통합을 다룬다.

UVR GUI v5.6

Ultimate Vocal Remover란? #

**Ultimate Vocal Remover(UVR)**는 심층 신경망을 사용하여 음악 오디오에서 보컬을 분리하는 오픈소스 GUI 애플리케이션이다. 주로 Python과 PyTorch로 구축되었으며, 복잡한 소스 분리 모델을 프로그래머가 아닌 사용자도 접근할 수 있는 데스크톱 인터페이스로 패키징한다. 이 프로젝트는 Anjok07과 aufr03이 유지보수하며, 대부분의 모델은 코어 개발 팀이 직접 훈련했다.

UVR은 여러 AI 아키텍처를 지원한다:

  • VR Architecture — tsurumeso가 개발한 스펙트로그램 기반 분리
  • MDX-Net — Kuielab의 멀티밴드 심층 신경망
  • MDX23C — 확장 컨텍스트 윈도우를 가진 확장 MDX-Net
  • Demucs v3/v4 — Meta/Facebook Research의 하이브리드 스펙트로그램-파형 모델

애플리케이션은 보컬과 반주를 위한 별도의 WAV 파일을 출력하며, 4-스템 모델을 사용할 때 추가로 드럼, 베이스, 기타 악기 트랙도 분리할 수 있다.

UVR 작동 방식 — 아키텍처 개요 #

UVR은 단일 모놀리식 모델을 구현하는 것이 아니다. 대신 모델 오케스트레이션 레이어로 작동하여 통합 인터페이스 뒤에서 다양한 PyTorch 기반 분리 엔진을 로드하고 실행한다.

입력 오디오 (MP3/WAV/FLAC)
    |
    v
[FFmpeg 디코더] → WAV PCM
    |
    v
[모델 선택]
    |-- VR-Net → 스펙트로그램 마스킹
    |-- MDX-Net → 멀티밴드 추정
    |-- MDX23C → 확장 컨텍스트 모델
    |-- Demucs → 하이브리드 파형+스펙
    |
    v
[후처리] → WAV 출력
    |-- Vocals.wav
    |-- Instrumental.wav

각 모델은 오디오를 다르게 처리한다:

VR Architecture는 오디오를 단시간 푸리에 변환(STFT) 스펙트로그램으로 변환하고, 학습된 마스크를 적용하여 보컬 주파수를 분리한 다음, 역 STFT를 통해 파형을 재구성한다. 이 접근 방식은 빠르지만 반주 트랙에 보컬 아티팩트가 남을 수 있다.

MDX-Net은 스펙트로그램을 여러 주파수 대역으로 분할하고 각 대역을 별도의 신경망 브랜치를 통해 처리한다. 멀티밴드 설계는 단일 대역 마스크가 놓칠 수 있는 보컬의 고조파 구조를 포착한다.

Demucs는 원시 파형과 스펙트로그램 표현에 동시에 작동한다. 하이브리드 접근 방식은 스펙트로그램 전용 방법보다 위상 정보를 더 잘 보존하여 더 높은 컴퓨팅 비용으로 더 깨끗한 분리 결과를 생성한다.

모든 모델은 ONNX Runtime 또는 PyTorch를 통해 실행되며, CUDA(Nvidia), MPS(Apple Silicon) 또는 DirectML(AMD/Intel)을 통한 선택적 GPU 가속을 지원한다.

설치 및 설정 #

Windows 설치 (권장) #

UVR v5.6은 Windows 10 이상을 위한 독립 설치 프로그램을 제공한다. Python이나 의존성 설치가 필요 없다.

1단계: 설치 프로그램 다운로드

# 공식 릴리스 페이지에서 UVR v5.6 다운로드
# 64비트 Windows (Nvidia GPU용 CUDA 지원)
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe

# AMD Radeon / Intel Arc GPU의 경우 DirectML 빌드 사용:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_1_15_25_22_30_BETA_full.exe

2단계: C:\ 드라이브에 설치

# 중요: C:\ 드라이브에만 설치
# 보조 드라이브에 설치하면 런타임 불안정성 발생
# 관리자 권한으로 설치 프로그램 실행
.\UVR_v5.6.0_setup.exe

3단계: 첫 실행 및 모델 다운로드

첫 실행 시 UVR이 자동으로 모델 가중치를 다운로드한다. 선택한 모델에 따라 일반적으로 6GB~12GB 다운로드가 필요하다. 모델을 SSD에 저장하는 것이 좋다 — HDD에서의 모델 로드 시간이 병목이다.

Windows 시스템 요구사항:

OS: Windows 10 64비트 이상
CPU: Intel/AMD 64비트 (Pentium/Celeron 지원 안 됨)
RAM: 최소 8GB, 권장 16GB
GPU: 최소 Nvidia GTX 1060 6GB, 권장 RTX 3060 8GB+
저장공간: 15GB 여유 (SSD 강력 권장)
참고: Intel Pentium 및 Celeron CPU는 지원되지 않음

macOS 설치 #

UVR은 Intel 및 Apple Silicon Mac 모두에서 macOS Big Sur 이상을 지원한다.

# 1단계: 아키텍처용 DMG 다운로드
# Apple Silicon (M1/M2/M3):
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg

# Intel Mac:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg

# 2단계: DMG 마운트 후 UVR을 Applications로 드래그

# 3단계: Gatekeeper 우회 (첫 실행 시에만)
sudo spctl --master-disable
sudo xattr -rd com.apple.quarantine "/Applications/Ultimate Vocal Remover.app"

# 4단계: UVR이 성공적으로 열린 후 Gatekeeper 재활성화
sudo spctl --master-enable

수동 설치 (macOS):

# 소스에서 실행을 선호하는 개발자용
brew install python@3.10 ffmpeg
pip3 install -r requirements.txt

# Apple Silicon 전용 — soundfile 라이브러리 수정
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \
   /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib

# FFmpeg 바이너리 다운로드 후 애플리케이션 디렉터리에 배치
# Time-Stretch/Pitch-Shift 기능용 Rubber Band 다운로드
python3 UVR.py

macOS에서 첫 실행은 Python이 백그라운드에서 의존성을 컴파일하므로 5~10분이 소요될 수 있다.

Linux 설치 #

Linux 설치는 가상 환경을 사용하여 UVR의 의존성을 시스템 Python 패키지와 격리한다.

Debian 기반 시스템 (Ubuntu, Mint, Pop!_OS):

# 1단계: 시스템 의존성 설치
sudo apt update && sudo apt upgrade -y
sudo apt-get install -y ffmpeg python3-pip python3-tk python3-venv

# 2단계: 저장소 클론
git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui

# 3단계: 가상 환경 생성 및 활성화
python3 -m venv venv
source venv/bin/activate

# 4단계: Python 의존성 설치
pip install -r requirements.txt

# 5단계: UVR 실행
python UVR.py

Arch 기반 시스템 (EndeavourOS, Manjaro):

sudo pacman -Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv

git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python UVR.py

헤드리스 / 서버 배포 (Docker):

# UVR 헤드리스 처리용 Dockerfile
FROM nvidia/cuda:12.1-runtime-ubuntu22.04

RUN apt-get update && apt-get install -y \
    python3.10 python3-pip python3-venv ffmpeg \
    git wget && rm -rf /var/lib/apt/lists/*

WORKDIR /app
RUN git clone https://github.com/Anjok07/ultimatevocalremovergui.git .
RUN python3 -m venv venv
RUN . venv/bin/activate && pip install -r requirements.txt

# 런타임 다운로드 방지를 위해 모델 사전 다운로드
RUN . venv/bin/activate && python -c "
import wget
import os
os.makedirs('models', exist_ok=True)
"

ENTRYPOINT ["venv/bin/python", "separate.py"]
# 빌드 및 실행
docker build -t uvr-gpu .
docker run --gpus all -v $(pwd)/input:/input -v $(pwd)/output:/output uvr-gpu \
    --input /input/song.mp3 --output /output --model MDX-Net

requirements.txt 주요 의존성 #

altgraph==0.17.3
audioread==3.0.0
einops==0.6.0
julius==0.2.7
librosa==0.9.2
matchering==2.0.6
omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
pydub==0.25.1
pyrubberband==0.3.0
pytorch_lightning==2.0.0
resampy==0.4.2
scipy==1.9.3
torch
onnxruntime
onnxruntime-gpu
numpy==1.23.5

모델 선택 및 설정 #

UVR에는 수십 개의 사전 훈련된 모델이 포함되어 있다. 올바른 모델 선택은 입력 오디오와 원하는 출력 품질에 따라 달라진다.

내장 모델 #

모델아키텍처최적 사용처속도VRAM
MDX-Net MainMDX-Net일반 보컬 제거중간6GB
MDX23CMDX23C복잡한 믹스, 고품질느림8GB
VR-DeEchoVR-Net디노이즈 + 보컬 제거빠름4GB
UVR-MDX-NET Inst MainMDX-Net반주 추출중간6GB
Demucs v4Demucs4-스템 분리느림8GB
UVR-BVEVR-Net블리드/보컬 제거빠름4GB

모델 선택 전략 #

# 모델 선택 결정 흐름
트랙이 일반 팝/락 곡인가?
  예 → MDX-Net Main (속도와 품질의 최적 균형)
  아니오 → 복잡한 관현악 믹스인가?
          예 → MDX23C (더 높은 품질, 더 느림)
          아니오 → 군중 소리가 있는 라이브 녹음인가?
                  예 → VR-DeEcho (내장 노이즈 제거)
                  아니오 → Demucs v4 (전체 4-스템 분리)

최대 품질 권장 설정 #

# UVR 설정 → "MDX-Net 모델 선택"
# 처리 방법: "MDX-Net"
# 세그먼트 크기: 256 (낮을수록 더 많은 VRAM, 더 나은 품질)
# 오버랩: 0.75 (높을수록 더 부드러운 전환, 더 느림)
# 디노이즈: 활성화
# 후처리: 활성화

# VRAM 8GB+ GPU:
세그먼트 크기: 256
오버랩: 0.85
배치 크기: 4

# VRAM 6GB GPU:
세그먼트 크기: 128
오버랩: 0.50
배치 크기: 1

# CPU 전용:
세그먼트 크기: 64
오버랩: 0.25
배치 크기: 1
5-10 느린 처리 예상

배치 처리 설정 #

# GUI를 통한 전체 폴더 처리:
# 1. "Input" 클릭 → 폴더 선택
# 2. "Batch Processing" 체크박스 활성화
# 3. 출력 폴더 설정
# 4. "Same as input" 또는 사용자 정의 디렉터리 선택
# 5. 모델 선택 후 "Start Processing" 클릭

# 출력 파일 구조:
input/
  track1.mp3
  track2.mp3
tracks/
  track1/Instrumental_track1.wav
  track1/Vocals_track1.wav
  track2/Instrumental_track2.wav
  track2/Vocals_track2.wav

인기 도구와의 통합 #

RVC(Retrieval-based Voice Conversion)와의 통합 #

UVR + RVC은 AI 보컬 커버 제작을 위한 인기 파이프라인이다:

# 파이프라인: 원곡 → UVR → 보컬만 → RVC → AI 보컬 커버
#         원곡 → UVR → 반주 → 최종 믹스

# 1단계: UVR로 깨끗한 보컬 추출
# 모델: MDX-Net Main
# 설정: 세그먼트 256, 오버랩 0.75, 디노이즈 ON
# 출력: Vocals.wav (깨끗한 격리된 보컬)

# 2단계: RVC를 통한 처리
python infer-web.py --input Vocals.wav --model weights/MyVoice.pth --pitch 0

# 3단계: 변환된 보컬을 UVR 반주 출력과 다시 믹싱
ffmpeg -i RVC_Converted_Vocals.wav -i UVR_Instrumental.wav \
       -filter_complex "[0:a][1:a]amix=inputs=2:duration=longest" \
       -ac 2 -ar 44100 Final_Cover.wav

GPT-SoVITS와의 통합 #

# GPT-SoVITS는 보이스 클론을 위해 깨끗한 보컬 입력이 필요함
# 훈련 데이터 전처리에 UVR 사용

# 1단계: 훈련 샘플에서 보컬 배치 추출
# UVR 설정:
#   모델: UVR-MDX-NET Inst Main (부산물로 보컬 추출)
#   또는: MDX-Net Main → 보컬 출력 유지

# 2단계: 깨끗한 보컬을 GPT-SoVITS 슬라이싱에 공급
python slice_audio.py --input UVR_Vocals/ --output slices/ --threshold -34

# 3단계: 슬라이스를 SoVITS 훈련에 사용
python webui.py --voice_slices slices/

demucs CLI와의 통합 #

UVR은 낶部적으로 Demucs를 사용하지만 CLI 버전을 체인으로 연결할 수도 있다:

# demucs를 직접 사용하여 4-스템 분리
demucs --mp3 --two-stems=vocals input.mp3

# 그런 다음 UVR을 사용하여 추가 보컬 정리
# UVR은 demucs 출력을 처리하여 더 세밀한 보컬/반주 분리 수행
python separate.py --input demucs_vocals.wav --model VR-DeEcho --output cleaned/

FFmpeg 후처리 파이프라인 #

# UVR 출력을 여러 형식으로 변환
for file in UVR_Output/*.wav; do
    base=$(basename "$file" .wav)

    # 고품질 MP3
    ffmpeg -i "$file" -codec:a libmp3lame -b:a 320k "${base}.mp3"

    # 아카이브용 FLAC
    ffmpeg -i "$file" -codec:a flac "${base}.flac"

    # 스트리밍용 OGG
    ffmpeg -i "$file" -codec:a libvorbis -q:a 6 "${base}.ogg"
done

벤치마크 및 실제 성능 #

처리 속도 비교 #

모든 테스트는 4분 44.1kHz 스테레오 WAV 파일에서 수행:

하드웨어MDX-NetMDX23CDemucs v4VR-DeEcho
RTX 4090 (24GB)18초42초55초12초
RTX 3060 (12GB)35초85초110초22초
GTX 1060 (6GB)72초180초240초45초
Apple M3 Pro28초68초90초18초
Ryzen 9 7950X (CPU)180초420초540초110초

분리 품질 (SDR — Signal-to-Distortion Ratio) #

높은 SDR = 더 나은 분리 품질, MUSDB18 벤치마크에서 테스트:

모델보컬 SDR반주 SDR아티팩트 수준
MDX23C9.4214.8낮음
Demucs v49.2814.2낮음
MDX-Net Main8.8513.6중간
VR-DeEcho7.9212.4중간

실제 사용 사례 #

  1. 노래방 트랙 제작 — 배치 모드로 밤새 50곡 이상 처리. RTX 3060에서 트랙당 평균 35초.
  2. 보이스 데이터셋 정제 — RVC/GPT-SoVITS 훈련을 위해 1,000개 이상 샘플 전처리. VR-DeEcho 모델은 보이스 녹음의 배경 블리드를 제거한다.
  3. 리믹스 프로덕션 — 멀티트랙 마스터가 없는 오래된 녹음에서 스템을 추출. MDX23C가 샘플링을 위한 가장 깨끗한 반주 트랙을 생성한다.
  4. 팟캐스트 편집 — 믹스된 녹음만 있을 때 공동 진행자 목소리를 분리. 참고: UVR은 음성 분리용으로 설계되지 않았음 — 한계점 섹션 참조.

고급 사용법 및 프로덕션 강화 #

GPU 메모리 관리 #

# "CUDA out of memory" 오류가 발생하는 경우:

# 옵션 1: GUI에서 세그먼트 크기 줄이기
# 설정 → Segment Size → 256에서 128 또는 64로 낮추기

# 옵션 2: "Use CPU for secondary model" 활성화
# 후처리를 CPU로 오프로드하여 VRAM 절약

# 옵션 3: 명령줄에서 청크 단위 처리
python separate.py \
    --input long_track.wav \
    --model MDX-Net \
    --segment 64 \
    --overlap 0.25 \
    --output chunks/

# 옵션 4: 다른 GPU 애플리케이션 닫기
# UVR은 처리 중 배타적 VRAM 접근이 필요함
# 브라우저, 게임, 기타 CUDA 애플리케이션 종료

모델 관리 및 저장 #

# UVR은 애플리케이션 디렉터리에 모델을 저장함
# Windows: C:\Users\<사용자>\AppData\Local\Programs\Ultimate Vocal Remover\models\
# macOS: /Applications/Ultimate Vocal Remover.app/Contents/models/
# Linux: ./models/

# 머신 간 모델 마이그레이션:
# 전체 models/ 디렉터리 복사
rsync -avz --progress models/ user@new-server:/opt/uvr/models/

# 모델은 50MB에서 500MB 각각
# 전체 모델 세트: 약 8GB 다운로드, 디스크 약 12GB

자동화된 워크플로우 스크립트 #

#!/usr/bin/env python3
"""프로덕션 워크플로우용 UVR 배치 처리 스크립트."""

import os
import subprocess
import json
import logging
from pathlib import Path

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("uvr-batch")

UVR_PATH = "/path/to/UVR.py"
MODEL = "MDX-Net Main"
INPUT_DIR = "./input"
OUTPUT_DIR = "./output"

def process_file(input_path: str, output_dir: str) -> dict:
    """단일 오디오 파일을 UVR을 통해 처리."""
    cmd = [
        "python", UVR_PATH,
        "--input", input_path,
        "--output", output_dir,
        "--model", MODEL,
        "--segment", "256",
        "--overlap", "0.75"
    ]

    result = subprocess.run(cmd, capture_output=True, text=True)

    return {
        "input": input_path,
        "success": result.returncode == 0,
        "stderr": result.stderr if result.returncode != 0 else None
    }

def main():
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    results = []

    for file in Path(INPUT_DIR).glob("*"):
        if file.suffix.lower() in {".mp3", ".wav", ".flac", ".m4a"}:
            logger.info(f"처리 중: {file.name}")
            result = process_file(str(file), OUTPUT_DIR)
            results.append(result)

    # 배치 보고서 저장
    with open(f"{OUTPUT_DIR}/batch_report.json", "w") as f:
        json.dump(results, f, indent=2)

    success_count = sum(1 for r in results if r["success"])
    logger.info(f"완료: {success_count}/{len(results)}개 파일 처리됨")

if __name__ == "__main__":
    main()

모니터링 및 로깅 #

# UVR은 GUI를 통해 처리 로그를 기록:
# 설정 버튼 → 오류 로그 → 세부 정보 보기

# 헤드리스 배포의 경우 로깅으로 래핑:
import sys
import logging
from datetime import datetime

log_file = f"uvr_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log"
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.FileHandler(log_file),
        logging.StreamHandler(sys.stdout)
    ]
)

# 처리 중 GPU 사용량 모니터링
watch -n 1 nvidia-smi

대안과의 비교 #

기능Ultimate Vocal RemoverdemucsSpleeterOpen-Unmix
GitHub Stars24,70010,10028,2001,500
GUI 인터페이스네이티브 Tkinter GUI없음 (CLI만)없음 (CLI만)없음 (CLI만)
사전 훈련 모델20+ 내장5 변형2-스템, 4-스템, 5-스템4-스템만
GPU 지원CUDA, MPS, DirectMLCUDACUDACUDA, CPU
macOS 지원완전 (Intel + Apple Silicon)제한적제한적제한적
Windows 설치 프로그램독립 .exepip/conda만pip/conda만pip만
보컬 전용 분리예 (전문 모델)2-스템 모드2-스템 모드4-스템만
디노이즈 처리내장 (VR-DeEcho)없음없음없음
배치 처리GUI + CLICLI만CLI만CLI만
타임스트레치/피치시프트내장 (Rubber Band)없음없음없음
활발한 유지보수예 (2025년 릴리스)아카이브됨 (2025년 1월)제한적최소
라이선스MITMITMITMIT

핵심 차별점: UVR은 이 비교에서 네이티브 데스크톱 GUI, 모델 마켓플레이스 통합, 전문 단일 목적 모델(디노이징용 VR-DeEcho 등)을 갖춘 유일한 도구이다. demucs와 Spleeter는 개발자 중심 라이브러리이며, Open-Unmix는 주로 연구 참조 구현체로 사용된다.

한계점 — 솔직한 평가 #

UVR은 음악 보컬 분리를 위해 특별히 설계되었다. 모든 오디오 작업에 적합한 도구는 아니다:

  1. 음성 분리 — UVR 모델은 음악 데이터셋(MUSDB18, 낶부 데이터셋)에서 훈련되었다. 두 사람이 동시에 말하는 것을 분리하면 결과가 좋지 않다. 음성 분리에는 pyannote.audio 또는 SpeechBrain을 사용하라.

  2. 실시간 처리 — UVR은 전체 파일을 오프라인으로 처리한다. 지연 시간은 밀리초가 아닌 초 단위로 측정된다. 실시간 소스 분리를 위해서는 스트리밍 Demucs 구현이나 NVIDIA Maxine을 살펴 볼 것.

  3. 저품질 입력 — 128kbps MP3나 전화 녹음을 분리하면 압축 아티팩트가 증폭된다. 입력 오디오는 최소 256kbps MP3나 무손실 WAV/FLAC이어야 한다.

  4. 극단적인 장르 — 데스 메탈 그로울링, 트로트 싱잉, 과도한 오토튜닝 보컬은 훈련 데이터에서 희귀했기 때문에 반주 트랙으로 유출될 수 있다.

  5. AMD GPU 제한 — DirectML 지원은 별도 브랜치에 존재하지만 CUDA만큼 성숙하지 않다. AMD 사용자는 간헐적인 크래시나 동급 Nvidia 카드보다 느린 성능을 경험할 수 있다.

  6. VST/AU 플러그인 형식 없음 — UVR은 독립 실행형 애플리케이션으로 실행된다. Ableton, Logic 또는 FL Studio 낶에서 플러그인으로 로드할 수 없다. 외부 오디오 라우팅을 사용하거나 사전에 스템을 처리하라.

자주 묻는 질문 #

질문: GPU 없이 UVR을 실행할 수 있나요? 예. UVR은 자동으로 CPU 처리로 폴 백한다. 속도는 5~10배 느려진다. 현대적인 8코어 CPU는 MDX-Net 모델로 4분 트랙을 약 3분에 처리한다. CPU 메모리 제약을 위해 세그먼트 크기를 64 이하로 설정하라.

질문: 왜 Windows에서 UVR을 C:\ 드라이브에만 설치하나요? 설치 프로그램은 Python, PyTorch, FFmpeg을 고정 경로 디렉터리 구조에 번들링한다. 설치를 이동하면 런타임과 모델 디렉터리 간의 하드코딩된 상대 경로가 깨진다. 개발 팀은 이 제한 사항을 인지하고 있다.

질문: 어떤 모델이 가장 깨끗한 반주 트랙을 생성하나요? MDX23C는 SDR 벤치마크에서 지속적으로 가장 높은 점수를 기록한다(MUSDB18에서 9.42 보컬 SDR). 대부분의 팝/락 트랙에서는 MDX-Net Main이 품질과 속도의 최적 균형을 제공한다. 전체 앨범을 처리하기 전에 30초 클립으로 여러 모델을 테스트하라.

질문: FLAC, M4A 또는 OGG 파일은 어떻게 처리하나요? FFmpeg을 설치하고 시스템 PATH에서 사용 가능한지 확인하라. UVR은 모든 비-WAV 형식의 백엔드 디코더로 FFmpeg을 사용한다. Linux에서는 sudo apt install ffmpeg, macOS에서는 brew install ffmpeg. Windows 설치 프로그램은 FFmpeg을 자동으로 번들링한다.

질문: UVR 출력을 상업적 릴리스에 사용할 수 있나요? UVR 소프트웨어와 그 모델은 모두 MIT 라이선스로 상업적 사용을 허용한다. 하지만 저작권법은 여전히 원본 자료에 적용된다. 저작권이 있는 노래에서 보컬을 제거핼다고 해서 결과 반주를 배포할 권리가 생기는 것은 아니다. 상업적 라이선스 문제는 법률 자문을 구하라.

질문: 왜 내 백신이 UVR 설치 프로그램을 탐지하나요? UVR의 Windows 설치 프로그램은 비싼 EV 인증서로 코드 서명되지 않았다. 일부 백신 엔진은 경험적으로 서명되지 않은 설치 프로그램을 탐지한다. 설치 프로그램은 오픈소스 저장소에서 빌드된다. 릴리스 페이지에서 SHA256 해시를 확인하거나 선호하는 경우 소스에서 빌드하라.

질문: UVR을 재설치하지 않고 모델을 업데이트하려면 어떻게 하나요? UVR을 열고 “Download Center” 버튼을 클릭하라. 새 모델은 개발 팀에 의해 릴리스될 때 여기에 나타난다. 각 모델 옆의 다운로드 아이콘을 클릭하라. 모델은 애플리케이션 바이너리와 독립적으로 저장된다.

결론 #

Ultimate Vocal Remover는 CLI 전용 라이브러리가 할 수 없는 공백을 메운다: 시각적 인터페이스와 큐레이팅된 모델 선택을 통해 접근 가능하고 고품질의 보컬 분리를 제공한다. AI 보이스 파이프라인을 구축하는 프로듀서, 수백 개의 트랙을 처리하는 노래방 운영자, 또는 깨끗한 보컬 데이터셋이 필요한 개발자에게 UVR은 Demucs나 Spleeter를 수동으로 실행할 때 따르는 Python 환경 문제를 제거한다.

다음 단계:

  1. 공식 릴리스 페이지에서 UVR v5.6 다운로드
  2. MDX-Net Main으로 테스트 트랙을 처리하여 GPU 설정 검증
  3. UVR 커뮤니티 토론에 가입하여 모델 추천 받기
  4. dibi8 Telegram 채널에서 주간 AI 오디오 도구 가이드 팔로우하기

추천 호스팅 및 인프라 #

위 도구들을 프로덕션에 배포하려면 안정적인 인프라가 필요합니다. dibi8가 직접 사용 중인 두 가지 옵션:

  • DigitalOcean — 60일 $200 무료 크레딧, 14개 이상 글로벌 리전. 오픈소스 AI 도구의 기본 선택.
  • HTStack — 홍콩 VPS, 중국 본토 저지연 접속. dibi8.com 호스팅 중인 검증된 IDC.

제휴 링크 — 추가 비용 없이 dibi8 운영을 지원합니다.

출처 및 추가 자료 #

💬 댓글 토론