lang: kr slug: ultimate-vocal-remover title: ‘Ultimate Vocal Remover: 24.7K+ 별 — 전체 설정 가이드 2026’ description: ‘UVR(Ultimate Vocal Remover)은 심층 신경망을 사용하여 보컬을 제거하는 GUI 애플리케이션입니다. Demucs, RVC, GPT-SoVITS와 호환됩니다. Windows, macOS, Linux 설치, 모델 선택, 일괄 처리 및 생산 강화를 다룹니다.’ tags: [“guide”, “open-source”, “reference”, “tutorial”] date: 2026-05-19 00:00:00+08:00 lastmod: 2026-05-19 00:00:00+08:00 tech_stack: [] application_domain: Ai Tools source_version: ’' licensing_model: Open Source license_type: MIT file_size: ’' file_md5: ’' download_url: ’' backup_url: ’' github_repo: ‘https://github.com/Anjok07/ultimatevocalremovergui' last_maintained: ‘2026-05-19’ draft: false categories: [‘ai-tools’] aliases:- /게시물/ultimate-vocal-remover/ 자주 묻는 질문:
- q: ‘GPU 없이 Ultimate Vocal Remover를 실행할 수 있나요?’ a: ‘예, UVR은 대략 5~10배 더 느리게 실행되지만 자동으로 CPU 처리로 돌아갑니다. 최신 8코어 CPU는 MDX-Net 모델을 사용하여 4분 트랙을 약 3분 만에 처리하며, CPU 메모리 제약에 맞게 세그먼트 크기를 64 이하로 설정해야 합니다.’
- q: ‘가장 깨끗한 악기 트랙을 생성하는 UVR 모델은 무엇입니까?’ a: ‘MDX23C는 SDR 벤치마크에서 가장 높은 점수를 얻었으며 MUSDB18 데이터 세트에서 9.42 보컬 SDR에 도달하여 복합 또는 오케스트라 믹스에 가장 적합합니다. 대부분의 팝/록 노래에 대해 MDX-Net Main은 품질과 속도의 최상의 균형을 제공합니다.’
- q: ‘UVR은 왜 Windows에서 C:\ 드라이브에만 설치되나요?’ a: ‘Windows 설치 프로그램은 Python, PyTorch 및 FFmpeg를 고정 경로 디렉터리에 번들로 묶고, 설치를 이동하면 런타임과 모델 디렉터리 간의 하드코딩된 상대 경로가 중단됩니다. 보조 드라이브에 설치하면 런타임이 불안정해집니다.’
- q: ‘Ultimate Vocal Remover는 말을 분리하는 데 좋은가요? 아니면 두 사람이 대화하는 데 좋은가요?’ a: ‘아니요. UVR 모델은 MUSDB18과 같은 음악 데이터 세트에 대해 교육을 받았기 때문에 겹치는 음성을 분리하면 결과가 좋지 않습니다. 음성 분리를 위해서는 대신 pyannote.audio 또는 SpeechBrain과 같은 전용 도구를 사용하세요.’
- q: ‘상업용 릴리스에 UVR 출력을 사용할 수 있습니까?’ a: ‘UVR 소프트웨어와 해당 모델은 MIT 라이선스를 취득하여 도구 자체의 상업적 사용을 허용합니다. 그러나 저작권법은 원본 자료에 여전히 적용되므로 저작권이 있는 노래에서 보컬을 제거해도 결과 악기를 배포할 수 있는 권한이 부여되지 않습니다.’
featureImage: /images/articles/ultimate-vocal-remover-247k-별-전체-설정-가이드.png
—{{< 리소스 정보 >}}값비싼 DAW 플러그인, 수동 EQ 조각 또는 오디오 엔지니어에 대한 아웃소싱이 필요한 악기 트랙에서 보컬을 분리합니다. 2026년에는 오픈 소스 딥 러닝 모델이 소비자 하드웨어에서 이 작업을 60초 이내에 처리합니다. **Ultimate Vocal Remover(UVR)**는 24,700개 이상의 GitHub 스타, Tkinter 기반 GUI 및 VR-Net, MDX-Net, MDX23C 및 Demucs를 포함한 여러 최첨단 아키텍처에 대한 지원을 통해 이 분야를 선도하고 있습니다. 이 최고의 보컬 제거 튜토리얼은 세 가지 주요 플랫폼 모두에서의 보컬 제거 설정, 모델 선택 전략, 일괄 처리 워크플로우, AI 오디오 분리 구성, RVC 및 GPT-SoVITS와 같은 도구와의 통합을 안내합니다. 보컬 제거제와 demucs를 비교하든지 아니면 완전한 uvr 가이드를 찾고 있든 이 문서에서는 프로덕션 준비 배포를 처음부터 끝까지 다룹니다.
- MDX-Net — Kuielab의 다중 대역 심층 신경망
- MDX23C — 더 큰 컨텍스트 창을 갖춘 확장된 MDX-Net
- Demucs v3/v4 — Facebook Research의 하이브리드 스펙트로그램-파형 모델이 애플리케이션은 4-스템 모델을 사용할 때 드럼, 베이스 및 “기타” 스템에 대한 추가 옵션과 함께 보컬과 악기에 대해 별도의 WAV 파일을 출력합니다.## UVR 작동 방식 — 아키텍처 개요UVR은 단일 모놀리식 모델을 구현하지 않습니다. 대신 통합 인터페이스 뒤에서 다양한 PyTorch 기반 분리 엔진을 로드하고 실행하는 모델 오케스트레이션 레이어 역할을 합니다.```` 입력 오디오(MP3/WAV/FLAC) | v [FFmpeg 디코더] → WAV PCM | v [모델 선택] |– VR-Net → 스펙트로그램 마스킹 |– MDX-Net → 다중 대역 추정 |– MDX23C → 확장된 컨텍스트 모델 |– Demucs → 하이브리드 파형+스펙 | v [후처리] → WAV 출력 |– 보컬.wav |– Instrumental.wav
모델은 오디오를 다르게 처리합니다.**VR 아키텍처**는 오디오를 STFT(단시간 푸리에 변환) 스펙트로그램으로 변환하고, 학습된 마스크를 별도의 보컬 주파수에 적용하고, 역 STFT를 통해 파형을 재구성합니다. 이 접근 방식은 빠르지만 악기 트랙에 보컬 아티팩트가 남을 수 있습니다.**MDX-Net**은 스펙트로그램을 여러 주파수 대역으로 분할하고 별도의 신경망 분기를 통해 각 대역을 처리합니다. 다중 밴드 디자인은 단일 밴드 마스크가 놓치는 보컬의 하모닉 구조를 포착합니다.**Demucs**는 원시 파형과 스펙트로그램 표현 모두에서 동시에 작동합니다. 하이브리드 접근 방식은 스펙트로그램 전용 방법보다 위상 정보를 더 잘 보존하여 더 높은 컴퓨팅 요구 사항을 희생하면서 더 깔끔한 분리를 생성합니다.모든 모델은 CUDA(Nvidia), MPS(Apple Silicon) 또는 DirectML(AMD/Intel)을 통한 GPU 가속 옵션이 포함된 **ONNX Runtime** 또는 **PyTorch**를 통해 실행됩니다.## 설치 및 설정### Windows 설치(권장)UVR v5.6은 Windows 10 이상을 위한 독립 실행형 설치 프로그램을 제공합니다. Python이나 종속성 설치가 필요하지 않습니다.**1단계: 설치 프로그램 다운로드**``파워셸
# 공식 출시 페이지에서 UVR v5.6을 다운로드하세요.
# 64비트 Windows(Nvidia GPU용 CUDA 지원)
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe# AMD Radeon/Intel Arc GPU의 경우 DirectML 빌드를 사용합니다.
# https://github.com/Anjok07/ultimatevocalremovergui/releases/downlo```
powershel
l
# 공식 출시 페이지에서 UVR v5.6을 다운로드하세요.
# 64비트 Windows(Nvidia GPU용 CUDA 지원)
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe
# AMD Radeon/Intel Arc GPU의 경우 DirectML 빌드를 사용합니다.
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_1_15_25_22_30_BETA_full.exe
``선택하는 모델에 따라 일반적입니다. SSD에 모델 저장 — 모델 로드 시간은 HDD의 병목 현상입니다.**시스템 요구 사항 — Windows:**``yaml
OS: Windows 10 64비트 이상
CPU: Intel/AMD 64비트(Pentium/Celeron은 지원되지 않음)
RAM: 최소 8GB, 16GB 권장
GPU: Nvidia GTX 1060 최소 6GB, RTX 3060 8GB 이상 권장
저장 공간: 15GB 여유 공간(SSD 적극 권장)
참고: Intel Pent``powershell
# 중요: C:\ 드라이브에만 설치하세요.
# 보조 드라이브에 설치하면 런타임이 불안정해집니다.
# 관리자 권한으로 설치 프로그램을 실행합니다.
.\UVR_v5.6.0_setup.exe
``당신의 아키텍처를 위해
# 애플 실리콘(M1/M2/M3):
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg# 인텔 맥:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg# 2단계: DMG를 마운트하고 UVR을 애플리케이션으로 드래그합니다.# 3단계: Gatekeeper 우회(첫 번째 실행에만 해당)
sudo spctl --master-disable
sudo xattr``yaml
OS: Windows 10 64비트 이상
CPU: Intel/AMD 64비트(Pentium/Celeron은 지원되지 않음)
RAM: 최소 8GB, 16GB 권장
GPU: Nvidia GTX 1060 최소 6GB, RTX 3060 8GB 이상 권장
저장 공간: 15GB 여유 공간(SSD 적극 권장)
참고: Intel Pentium 및 Celeron CPU는 지원되지 않습니다.
``requirements.txt# Apple Silicon에만 해당 - 사운드 파일 라이브러리 수정
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \
/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib# FFmpeg 바이너리를 다운로드하고 애플리케이션 디렉토리에 배치합니다.
# tim```
bash
용
고무밴드 다운로드
# 1단계: 아키텍처에 맞는 DMG 다운로드
# 애플 실리콘(M1/M2/M3):
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg
# 인텔 맥:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg
# 2단계: DMG를 마운트하고 UVR을 애플리케이션으로 드래그합니다.
# 3단계: Gatekeeper 우회(첫 번째 실행에만 해당)
sudo spctl --master-disable
sudo xattr -rd com.apple.quarantine "/Applications/Ultimate Vocal Remover.app"
# 4단계: UVR이 성공적으로 열린 후 Gatekeeper를 다시 활성화합니다.
sudo spctl --master-enable
``환경
python3 -m venv venv
소스 venv/bin/활성화# 4단계: Python 종속 항목 설치
pip 설치 -r 요구사항.txt# 5단계: UVR 실행
파이썬 UVR.py
````**아치 기반 시스템(EndeavourOS, Manjaro):**``배쉬
sudo 팩맨 -Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv자식 클론 https://github.com/Anjok07/ultimatevocalremovergui.git
CD Ultimatevocalremovergui
python3 -m venv venv
소스 venv/bin/활성화
pip 설치 -r 요구사항.txt
파이썬 UVR.py
````**헤드리스/서버 배포(Docker):**``도커파일
# UVR 헤드리스 처리를 위한 Dockerfile
nvidia/cuda에서:12.1-runtime-ubuntu22.04실행 apt-get 업데이트 && apt-get install -y \
``배쉬
# 소스에서 실행하는 것을 선호하는 개발자의 경우
양조 설치 python@3.10 ffmpeg
pip3 설치 -r 요구사항.txt
# Apple Silicon에만 해당 - 사운드 파일 라이브러리 수정
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \
/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib
# FFmpeg 바이너리를 다운로드하고 애플리케이션 디렉토리에 배치합니다.
# 타임 스트레치/피치 시프트 기능을 위한 고무 밴드 다운로드
python3 UVR.py
``.
docker run --gpus all -v $(pwd)/input:/input -v $(pwd)/output:/output uvr-gpu \
--input /input/song.mp3 --output /output --model MDX-Net
````### 요구사항.txt 주요 종속성``텍스트
Altgraph==0.17.3
오디오읽기==3.0.0
아이놉스==0.6.0
줄리어스==0.2.7
librosa==0.9.2
매칭==2.0.6
Omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
피덥==0.25.1
피고무밴드==0.3.0
pytorch_lightning==2.0.0
재샘플링==0.4.2
사이피==1.9.3
토치
onnx런타임
onnxruntime-gpu
넘파이==1.23.5
````## 모델 선택 및 구성UVR에는 수십 개의 사전 훈련된 모델이 포함되어 있습니다. 올바른 모델을 선택하는 것은 입력 오디오와 원하는 출력 품질에 따라 다릅니다.### 내장 모델| 모델 | 건축 | 최고의 대상 | 속도 | VRAM |
|-------|-------------|------------|-------|------|
| `MDX-Net 메인` | MDX-넷 | 일반 보컬 rem````
bas
h
# 1단계: 시스템 종속성 설치
sudo apt 업데이트 && sudo apt 업그레이드 -y
sudo apt-get 설치 -y ffmpeg python3-pip python3-tk python3-venv
# 2단계: 저장소 복제
자식 클론 https://github.com/Anjok07/ultimatevocalremovergui.git
CD Ultimatevocalremovergui
# 3단계: 가상 환경 생성 및 활성화
python3 -m venv venv
소스 venv/bin/활성화
# 4단계: Python 종속 항목 설치
pip 설치 -r 요구사항.txt
# 5단계: UVR 실행
파이썬 UVR.py
`` 메인(속도와 품질의 최상의 균형)
아니요 → 복잡한 오케스트라 믹스인가요?
예 → MDX23C(품질이 높을수록 느림)
아니요 → 군중 소음이 포함된 라이브 녹음인가요?
있음 → VR-DeEcho(소음 억제 내장)
아니요 → Demucs v4(완전 4줄 분리)
````### 최대 품질을 위한 권장 설정``파이썬
# UVR 설정 → "MDX-Net 모델 선택"
# 처리 방법: "MDX-Net"
# 세그먼트 크기: 256(낮음 = 더 많은 VRAM, 더 나은 품질)
# 오버랩: 0.75 (더 높음 = 부드러움```
bas
h
sudo 팩맨 -Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv
자식 클론 https://github.com/Anjok07/ultimatevocalremovergui.git
CD Ultimatevocalremovergui
python3 -m venv venv
소스 venv/bin/활성화
pip 설치 -r 요구사항.txt
파이썬 UVR.py
``화: 1
처리 속도가 5~10배 느려질 것으로 예상됩니다.
````### 일괄 처리 구성``배쉬
# GUI를 통해 전체 폴더를 처리하는 경우:
# 1. "입력" 클릭 → 폴더 선택
# 2. "일괄 처리" 확인란을 활성화합니다.
# 3. 출력 폴더 설정
# 4. "입력과 동일" 또는 사용자 정의 디렉터리를 선택합니다.
# 5. 모델을 선택하고 ```
dockerfile
을
클릭합니다.
# UVR 헤드리스 처리를 위한 Dockerfile
nvidia/cuda에서:12.1-runtime-ubuntu22.04
실행 apt-get 업데이트 && apt-get install -y \
python3.10 python3-pip python3-venv ffmpeg \
git wget && rm -rf /var/lib/apt/lists/*
WORKDIR /앱
git clone https://github.com/Anjok07/ultimatevocalremovergui.git을 실행하세요.
python3 -m venv venv 실행
실행. venv/bin/activate && pip install -r 요구 사항.txt
# 런타임 다운로드를 피하기 위해 모델을 미리 다운로드
실행. venv/bin/활성화 && python -c "
wget 가져오기
수입 OS
os.makedirs('모델',exist_ok=True)
# 처음 사용 시 모델 자동 다운로드
"
ENTRYPOINT ["venv/bin/python", "separate.py"]
``(깨끗하고 고립된 보컬)# 2단계: RVC를 통한 처리
python infer-web.py --input Vocals.wav --모델 가중치/MyVoice.pth --pitch 0# 3단계: 변환된 보컬을 UVR 악기 출력과 다시 믹싱
ffmpeg -i RVC_Converted_Vocals.wav -i UVR_Instrumental.wav \
-filter_complex "[0:a][1:a]amix=입력=2:기간=가장 길다" \
-ac 2 -ar 44100 Final_Cover.wav
````### GPT-SoVITS와 통합``파이썬
# GPT-SoVITS는 음성 복제를 위해 깨끗한 음성 입력이 필요합니다.
# UVR을 사용하여 훈련 데이터 전처리# 1단계: 트레이닝 샘플에서 보컬 일괄 추출
# UVR 설정:
# 모델: UVR-MDX-NET Inst Main(``bash로 보컬 추출)
# 빌드 및 실행
docker build -t uvr-gpu .
docker run --gpus all -v $(pwd)/input:/input -v $(pwd)/output:/output uvr-gpu \
--input /input/song.mp3 --output /output --model MDX-Net
``SoVITS 교육용 조각
python webui.py --voice_slices 조각/
````### demucs CLI와의 통합UVR은 내부적으로 Demucs를 사용하지만 CLI 버전을 연결할 수도 있습니다.``배쉬
# 4-줄기 분리를 위해 demucs를 직접 사용
dem``텍스트
Altgraph==0.17.3
오디오읽기==3.0.0
아이놉스==0.6.0
줄리어스==0.2.7
librosa==0.9.2
매칭==2.0.6
Omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
피덥==0.25.1
피고무밴드==0.3.0
pytorch_lightning==2.0.0
재샘플링==0.4.2
사이피==1.9.3
토치
onnx런타임
onnxruntime-gpu
넘파이==1.23.5
``여러 형식으로 출력
UVR_Output/*.wav에 있는 파일의 경우; 하다
기본=$(기본 이름 "$file" .wav)# 고품질 MP3
ffmpeg -i "$file" -codec:a libmp3lame -b:a 320k "${base}.mp3"# 보관용 FLAC
ffmpeg -i "$file" -codec:a flac "${base}.flac"# 스트리밍용 OGG
ffmpeg -i "$file" -codec:a libvorbis -q:a 6 "${base}.ogg"
완료
````## 벤치마크 및 실제 성능### 처리 속도 비교4분 길이의 44.1kHz 스테레오 WAV 파일에서 수행된 모든 테스트:| Hardware | MDX-Net | MDX23C | Demucs v4 | VR-DeEcho |
|----------|---------|--------|-----------|-----------|
| RTX 4090 (24GB) | 18s | 42s | 55s | 12s |
| RTX 3060 (12GB) | 35s | 85s | 110s | 22s |
| GTX 1060 (6GB) | 72s | 180s | 240s | 45s |
| Apple M3 Pro | 28s | 68s | 90s | 18s |
| Ryzen 9 7950X (CPU) | 180s | 420s | 540s | 110s |### 분리 품질(SDR — 신호 대 왜곡비)높은 SDR = 더 나은 분리 품질, MUSDB18 벤치마크에서 테스트됨:| 모델 | 보컬 SDR | 경음악 SDR | 아르``'야믈
# 모델 선택을 위한 결정 흐름
트랙이 표준 팝/록 노래인가요?
예 → MDX-Net Main(속도와 품질의 최적 균형)
아니요 → 복잡한 오케스트라 믹스인가요?
예 → MDX23C(품질이 높을수록 느림)
아니요 → 군중 소음이 포함된 라이브 녹음인가요?
있음 → VR-DeEcho(소음 억제 내장)
아니요 → Demucs v4(완전 4줄 분리)
``RVC/GPT-SoVITS 교육을 위해 1,000개 이상의 샘플을 처리합니다. VR-DeEcho 모델은 음성 녹음에서 배경 블리드를 제거합니다.
3. **리믹스 제작** — 멀티트랙 마스터가 없는 오래된 녹음에서 발췌한 내용입니다. MDX23C는 샘플링을 위한 가장 깨끗한 악기 트랙을 생성합니다.
4. **팟캐스트 편집** — 혼합 녹음만 있는 경우 공동 진행자 음성을 분리합니다. 참고: UVR은 음성 분리용으로 설계되지 않았습니다. 제한 사항을 참조하세요.## 고급 사용법 및 Prod````
pytho
n
# UVR 설정 → "MDX-Net 모델 선택"
# 처리 방법: "MDX-Net"
# 세그먼트 크기: 256(낮음 = 더 많은 VRAM, 더 나은 품질)
# 오버랩: 0.75(높을수록 전환이 더 부드러워지고 느려짐)
# 노이즈 제거: 활성화됨
# 후처리: 활성화됨
# 8GB 이상의 VRAM을 갖춘 GPU의 경우:
세그먼트 크기: 256
오버랩: 0.85
배치 크기: 4
# 6GB VRAM을 갖춘 GPU의 경우:
세그먼트 크기: 128
중첩: 0.50
배치 크기: 1
# CPU 전용:
세그먼트 크기: 64
중첩: 0.25
배치 크기: 1
처리 속도가 5~10배 느려질 것으로 예상됩니다.
``큰 덩어리/# Option 4: Close other GPU applications
# UVR requires exclusive VRAM access during processing
# Close browsers, games, and other CUDA applications
```### Model Management and Storage```
bas
h
# UVR stores models in the application directory
# Windows: C:\Users\<User>\AppData\Local\Programs\Ultimate Vocal Remover\models\
# macOS: /Applications/Ultimate Vocal Remover.app/Contents/models/
# Linux: ./models/# To migrate models between machines:
# Copy the entire models/ directory
rsync -av```
bas
h
# For processing entire folders via the GUI:
# 1. Click "Input" → Select Folder
# 2. Enable "Batch Processing" checkbox
# 3. Set output folder
# 4. Choose "Same as input" or custom directory
# 5. Select model and click "Start Processing"
# Output file structure:
input/
track1.mp3
track2.mp3
tracks/
track1/Instrumental_track1.wav
track1/Vocals_track1.wav
track2/Instrumental_track2.wav
track2/Vocals_track2.wav
```_PATH
= "/path/to/UVR.py"
MODEL = "MDX-Net Main"
INPUT_DIR = "./input"
OUTPUT_DIR = "./output"def process_file(input_path: str, output_dir: str) -> dict:
"""Process a single audio file through UVR."""
cmd = [
"python", UVR_PATH,
"--input", input_path,
"--output", output_dir,
"--model", MODEL,
"--segment", "256",
"--overlap", "0.75"
] result = subprocess.run(cmd, capture_output=True, text=True) return {
"input": input_path,
"success": result.returncode == 0,
"stderr": result.stderr if res```
bas
h
# Pipeline: Original Song → UVR → Vocals Only → RVC → AI Voice Cover
# Original Song → UVR → Instrumental → Final Mix
# Step 1: Extract clean vocals with UVR
# Model: MDX-Net Main
# Settings: Segment 256, Overlap 0.75, Denoise ON
# Output: Vocals.wav (clean, isolated vocals)
# Step 2: Process through RVC
python infer-web.py --input Vocals.wav --model weights/MyVoice.pth --pitch 0
# Step 3: Mix converted vocals back with UVR instrumental output
ffmpeg -i RVC_Converted_Vocals.wav -i UVR_Instrumental.wav \
-filter_complex "[0:a][1:a]amix=inputs=2:duration=longest" \
-ac 2 -ar 44100 Final_Cover.wav
```_
== "__main__":
main()
```### Monitoring and Logging```
pytho
n
# UVR writes processing logs accessible via the GUI:
# Settings Button → Error Log → View Details# For headless deployments, wrap with logging:
import sys
import logging
from datetime import datetimelog_file = f"uvr_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log"
logging.basicConfig(
level=logging.INFO,
format='%(asctime)s [%(levelname)s] %(message)s',
handlers=[
logging.FileHandler(log_file),
logging.StreamHandler(sys.stdout)
]
)# Monitor GPU utilization during processing
watch -n 1 nvidia-smi
```## Comparison with Alternatives| Feature | Ultimate```
pytho
n
# GPT-SoVITS requires clean vocal input for voice cloning
# Use UVR to preprocess training data
# Step 1: Batch extract vocals from training samples
# UVR Settings:
# Model: UVR-MDX-NET Inst Main (extracts vocals as byproduct)
# Or: MDX-Net Main → keep Vocals output
# Step 2: Feed clean vocals to GPT-SoVITS slicing
python slice_audio.py --input UVR_Vocals/ --output slices/ --threshold -34
# Step 3: Use slices for SoVITS training
python webui.py --voice_slices slices/
```mi
t
e
d
| Limited |
| **Windows Installer** | Standalone .exe | pip/conda only | pip/conda only | pip only |
| **Vocal-only separation** | Yes (specialized models) | 2-stem mode | 2-stem mode | 4-stem only |
| **Denoise processing** | Built-in (VR-DeEcho) | No | No | No |
| **Batch processing** | GUI + CLI | CLI only | CLI only | CLI only |
| **Time-stretch/Pitch-shift** | Built-in (Rubber Band) | No | No | No |
| **Active maintenance** | Yes (2025 releases) | Archived (Jan 2025) | Limited | Minimal |
| **License** | MIT | MIT | MIT | MIT |**Key distinction:** UVR is the only tool ```
bas
h
# Use demucs directly for 4-stem separation
demucs --mp3 --two-stems=vocals input.mp3
# Then use UVR for additional vocal cleanup
# UVR can process demucs output for finer vocal/instrumental splits
python separate.py --input demucs_vocals.wav --model VR-DeEcho --output cleaned/
```t
AssessmentUVR is purpose-built for **music vocal separation**. It is not the right tool for every audio task:1. **Speech separation** — UVR models are trained on music datasets (MUSDB18, internal datasets). Separating two people talking over each other produces poor results. For speech separation, use pyannote.audi```
bas
h
# Convert UVR output to multiple formats
for file in UVR_Output/*.wav; do
base=$(basename "$file" .wav)
# High-quality MP3
ffmpeg -i "$file" -codec:a libmp3lame -b:a 320k "${base}.mp3"
# FLAC for archival
ffmpeg -i "$file" -codec:a flac "${base}.flac"
# OGG for streaming
ffmpeg -i "$file" -codec:a libvorbis -q:a 6 "${base}.ogg"
done
```ou
r
c
e
audio should be at least 256kbps MP3 or lossless WAV/FLAC.4. **Extreme genre outliers** — Death metal growling, throat singing, and heavily autotuned vocals sometimes leak into the instrumental track because these timbres were rare in the training data.5. **AMD GPU limitations** — DirectML support exists on a separate branch but is less mature than CUDA. AMD users should expect occasional crashes or slower performance compared to equivalent Nvidia cards.6. **No VST/AU plugin format** — UVR runs as a standalone application. It cannot be loaded as a plugin inside Ableton, Logic, or FL Studio. Use external audio routing or process stems beforehand.## Frequently Asked Questions**Q: Can I run UVR without a GPU?**
Yes. UVR falls back to CPU processing automatically. Expect 5–10x slower speeds. A modern 8-core CPU processes a 4-minute track in approximately 3 minutes with the MDX-Net model. Set segment size to 64 or lower to fit CPU memory constraints.**Q: Why does UVR install to C:\ drive only on Windows?**
The installer bundles Python, PyTorch, and FFmpeg into a fixed-path directory structure. Moving the installation breaks hardcoded relative paths between the runtime and model directories. The development team is aware of this limitation.**Q: Which model produces the cleanest instrumental track?**
MDX23C consistently scores highest on SDR benchmarks (9.42 vocal SDR on MUSDB18). For most pop/rock tracks, MDX-Net Main provides the best balance of quality and speed. Test multiple models on a 30-second clip before processing full albums.**Q: How do I process FLAC, M4A, or OGG files?**
Install FFmpeg and ensure it is available in your system PATH. UVR uses FFmpeg as a backend decoder for all non-WAV formats. On Linux, `sudo apt install ffmpeg`. On macOS, `brew install ffmpeg`. The Windows installer bundles FFmpeg automatically.**Q: Can I use UVR output for commercial rel```
pytho
n
# If you encounter "CUDA out of memory" errors:
# Option 1: Reduce segment size in GUI
# Settings → Segment Size → Drop from 256 to 128 or 64
# Option 2: Enable "Use CPU for secondary model"
# This offloads post-processing to CPU, saving VRAM
# Option 3: Process in chunks via command line
python separate.py \
--input long_track.wav \
--model MDX-Net \
--segment 64 \
--overlap 0.25 \
--output chunks/
# Option 4: Close other GPU applications
# UVR requires exclusive VRAM access during processing
# Close browsers, games, and other CUDA applications
```agai
n
s
t
the release page, or build from source if preferred.**Q: How do I update models without reinstalling UVR?**
Open UVR and click the "Download Center" button. New models appear here as they are released by the development team. Click the download icon next to each model. Models are stored independently of the application binary.## ConclusionUltimate Vocal Remover fills a gap that CLI-only libraries cannot: accessible, high-quality vocal separation with a visual interface and curated model selection. For producers building AI voice pipelines, karaoke operators processing hundreds of tracks, or devel```
bas
h
# UVR stores models in the application directory
# Windows: C:\Users\<User>\AppData\Local\Programs\Ultimate Vocal Remover\models\
# macOS: /Applications/Ultimate Vocal Remover.app/Contents/models/
# Linux: ./models/
# To migrate models between machines:
# Copy the entire models/ directory
rsync -avz --progress models/ user@new-server:/opt/uvr/models/
# Models range from 50MB to 500MB each
# Full model set: ~8GB download, ~12GB on disk
``` recommendations
4. Follow [dibi8 on Telegram](https://t.me/dibi8channel) for weekly AI audio tool guides
## Recommended Hosting & InfrastructureBefore you deploy any of the tools above into production, you'll need solid infrastructure. Two options dibi8 actually uses and recommends:- **DigitalOcean
** — $200 free credit for 60 days across 14+ global regions. The default option for indie devs running open-source AI too```
pytho
n
#!/usr/bin/env python3
"""Batch UVR processing script for production workflows."""
import os
import subprocess
import json
import logging
from pathlib import Path
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("uvr-batch")
UVR_PATH = "/path/to/UVR.py"
MODEL = "MDX-Net Main"
INPUT_DIR = "./input"
OUTPUT_DIR = "./output"
def process_file(input_path: str, output_dir: str) -> dict:
"""Process a single audio file through UVR."""
cmd = [
"python", UVR_PATH,
"--input", input_path,
"--output", output_dir,
"--model", MODEL,
"--segment", "256",
"--overlap", "0.75"
]
result = subprocess.run(cmd, capture_output=True, text=True)
return {
"input": input_path,
"success": result.returncode == 0,
"stderr": result.stderr if result.returncode != 0 else None
}
def main():
os.makedirs(OUTPUT_DIR, exist_ok=True)
results = []
for file in Path(INPUT_DIR).glob("*"):
if file.suffix.lower() in {".mp3", ".wav", ".flac", ".m4a"}:
logger.info(f"Processing: {file.name}")
result = process_file(str(file), OUTPUT_DIR)
results.append(result)
# Save batch report
with open(f"{OUTPUT_DIR}/batch_report.json", "w") as f:
json.dump(results, f, indent=2)
success_count = sum(1 for r in results if r["success"])
logger.info(f"Complete: {success_count}/{len(results)} files processed")
if __name__ == "__main__":
main()
pytho n
UVR writes processing logs accessible via the GUI: #Settings Button → Error Log → View Details #
For headless deployments, wrap with logging: #
import sys import logging from datetime import datetime
log_file = f"uvr_{datetime.now().strftime(’%Y%m%d_%H%M%S’)}.log" logging.basicConfig( level=logging.INFO, format=’%(asctime)s [%(levelname)s] %(message)s’, handlers=[ logging.FileHandler(log_file), logging.StreamHandler(sys.stdout) ] )
Monitor GPU utilization during processing #
watch -n 1 nvidia-smi
💬 댓글 토론