Ultimate Vocal Remover: 24.7K+ Stars — Hướng Dẫn Cài Đặt Đầy Đủ 2026
Ultimate Vocal Remover (UVR) là ứng dụng GUI tách giọng hát bằng mạng nơ-ron sâu. Tương thích với demucs, RVC, GPT-SoVITS. Bao gồm cài đặt Windows, macOS, Linux, chọn model, xử lý hàng loạt và tăng cường production.
- ⭐ 24700
- MIT
- Cập nhật 2026-05-19
{{< resource-info >}}
Tách giọng hát khỏi nhạc nền từng đòi hỏi plugin DAW đắt tiền, cắt EQ thủ công, hoặc thuê kỹ sư âm thanh. Năm 2026, các mô hình học sâu mã nguồn mở xử lý tác vụ này trong vòng 60 giây trên phần cứng phổ thông. Ultimate Vocal Remover (UVR) dẫn đầu lĩnh vực này với hơn 24.700 sao GitHub, giao diện GUI dựa trên Tkinter và hỗ trợ nhiều kiến trúc tiên tiến bao gồm VR-Net, MDX-Net, MDX23C và Demucs. Hướng dẫn này đi qua cài đặt trên cả ba nền tảng chính, chiến lược chọn model, quy trình xử lý hàng loạt và tích hợp với RVC và GPT-SoVITS.

Ultimate Vocal Remover là gì? #
Ultimate Vocal Remover (UVR) là ứng dụng GUI mã nguồn mở sử dụng mạng nơ-ron sâu để tách giọng hát khỏi âm thanh nhạc cụ. Được xây dựng chủ yếu bằng Python với PyTorch, nó đóng gói các mô hình tách nguồn phức tạp thành giao diện desktop mà ngườ dùng không chuyên cũng có thể sử dụng. Dự án được duy trì bởi Anjok07 và aufr03, phần lớn các mô hình được đội ngũ phát triển core tự huấn luyện.
UVR hỗ trợ nhiều kiến trúc AI:
- VR Architecture — Tách dựa trên spectrogram, phát triển bởi tsurumeso
- MDX-Net — Mạng nơ-ron đa băng tần của Kuielab
- MDX23C — MDX-Net mở rộng với cửa sổ ngữ cảnh lớn hơn
- Demucs v3/v4 — Mô hình hybrid spectrogram-waveform của Meta/Facebook Research
Ứng dụng xuất file WAV riêng biệt cho giọng hát và nhạc nền, với tùy chọn bổ sung cho trống, bass và stem “other” khi sử dụng mô hình 4-stem.
UVR hoạt động như thế nào — Tổng quan kiến trúc #
UVR không triển khai một mô hình đơn khối duy nhất. Thay vào đó, nó đóng vai trò là lớp điều phối mô hình tải và chạy các công cụ tách nguồn PyTorch khác nhau phía sau giao diện thống nhất.
Audio đầu vào (MP3/WAV/FLAC)
|
v
[Bộ giải mã FFmpeg] → WAV PCM
|
v
[Lựa chọn Model]
|-- VR-Net → Che phủ spectrogram
|-- MDX-Net → Ước lượng đa băng tần
|-- MDX23C → Mô hình ngữ cảnh mở rộng
|-- Demucs → Hybrid waveform+spec
|
v
[Xử lý hậu kỳ] → Xuất WAV
|-- Vocals.wav
|-- Instrumental.wav
Mỗi mô hình xử lý audio theo cách khác nhau:
VR Architecture chuyển đổi audio thành spectrogram Short-Time Fourier Transform (STFT), áp dụng mặt nạ đã học để tách tần số giọng hát, và tái tạo dạng sóng qua STFT ngược. Phương pháp này nhanh nhưng có thể để lại tạp âm giọng hát trong track nhạc nền.
MDX-Net chia spectrogram thành nhiều dải tần số và xử lý từng dải qua các nhánh mạng nơ-ron riêng biệt. Thiết kế đa băng tần bắt được cấu trúc hài âm trong giọng hát mà mặt nạ đơn băng tần bỏ sót.
Demucs hoạt động đồng thờ trên cả dạng sóng thô và biểu diễn spectrogram. Phương pháp hybrid bảo toàn thông tin pha tốt hơn phương pháp chỉ dùng spectrogram, tạo ra phân tách sạch hơn với chi phí tính toán cao hơn.
Tất cả mô hình chạy qua ONNX Runtime hoặc PyTorch với tùy chọn tăng tốc GPU qua CUDA (Nvidia), MPS (Apple Silicon) hoặc DirectML (AMD/Intel).
Cài đặt và thiết lập #
Cài đặt Windows (Khuyến nghị) #
UVR v5.6 cung cấp trình cài đặt độc lập cho Windows 10 trở lên. Không cần cài đặt Python hay phụ thuộc.
Bước 1: Tải trình cài đặt
# Tải UVR v5.6 từ trang release chính thức
# Windows 64-bit (hỗ trợ CUDA cho GPU Nvidia)
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe
# Cho GPU AMD Radeon / Intel Arc, dùng bản DirectML:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_1_15_25_22_30_BETA_full.exe
*Bước 2: Cài vào ổ C:*
# QUAN TRỌNG: Chỉ cài vào ổ C:\
# Cài vào ổ phụ gây ra bất ổn runtime
# Chạy trình cài đặt với quyền Administrator
.\UVR_v5.6.0_setup.exe
Bước 3: Khởi chạy và tải model
Lần khởi chạy đầu tiên, UVR tự động tải trọng số mô hình. Tùy model đã chọn, thường cần tải 6GB–12GB. Lưu model trên SSD — thờ gian tải model trên HDD là điểm nghẽn.
Yêu cầu hệ thống Windows:
HĐH: Windows 10 64-bit trở lên
CPU: Intel/AMD 64-bit (không hỗ trợ Pentium/Celeron)
RAM: Tối thiểu 8GB, khuyến nghị 16GB
GPU: Tối thiểu Nvidia GTX 1060 6GB, khuyến nghị RTX 3060 8GB+
Lưu trữ: 15GB trống (khuyến khích dùng SSD)
Lưu ý: Không hỗ trợ CPU Intel Pentium và Celeron
Cài đặt macOS #
UVR hỗ trợ macOS Big Sur trở lên trên cả Mac Intel và Apple Silicon.
# Bước 1: Tải DMG cho kiến trúc của bạn
# Apple Silicon (M1/M2/M3):
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg
# Mac Intel:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg
# Bước 2: Mount DMG và kéo UVR vào Applications
# Bước 3: Vượt qua Gatekeeper (chờ lần đầu tiên)
sudo spctl --master-disable
sudo xattr -rd com.apple.quarantine "/Applications/Ultimate Vocal Remover.app"
# Bước 4: Bật lại Gatekeeper sau khi UVR mở thành công
sudo spctl --master-enable
Cài đặt thủ công (macOS):
# Dành cho developer thích chạy từ source
brew install python@3.10 ffmpeg
pip3 install -r requirements.txt
# Chỉ Apple Silicon — sửa thư viện soundfile
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \
/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib
# Tải binary FFmpeg và đặt vào thư mục ứng dụng
# Tải Rubber Band cho tính năng time-stretch/pitch-shift
python3 UVR.py
Lần khởi chạy đầu trên macOS có thể mất 5–10 phút vì Python biên dịch các phụ thuộc ở background.
Cài đặt Linux #
Cài đặt Linux sử dụng môi trường ảo để cô lập các phụ thuộc của UVR khỏi các gói Python hệ thống.
Hệ thống dựa trên Debian (Ubuntu, Mint, Pop!_OS):
# Bước 1: Cài phụ thuộc hệ thống
sudo apt update && sudo apt upgrade -y
sudo apt-get install -y ffmpeg python3-pip python3-tk python3-venv
# Bước 2: Clone repository
git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui
# Bước 3: Tạo và kích hoạt môi trường ảo
python3 -m venv venv
source venv/bin/activate
# Bước 4: Cài phụ thuộc Python
pip install -r requirements.txt
# Bước 5: Chạy UVR
python UVR.py
Hệ thống dựa trên Arch (EndeavourOS, Manjaro):
sudo pacman -Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv
git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python UVR.py
Triển khai Headless / Server (Docker):
# Dockerfile cho xử lý UVR headless
FROM nvidia/cuda:12.1-runtime-ubuntu22.04
RUN apt-get update && apt-get install -y \
python3.10 python3-pip python3-venv ffmpeg \
git wget && rm -rf /var/lib/apt/lists/*
WORKDIR /app
RUN git clone https://github.com/Anjok07/ultimatevocalremovergui.git .
RUN python3 -m venv venv
RUN . venv/bin/activate && pip install -r requirements.txt
# Tải model trước để tránh tải lúc runtime
RUN . venv/bin/activate && python -c "
import wget
import os
os.makedirs('models', exist_ok=True)
"
ENTRYPOINT ["venv/bin/python", "separate.py"]
# Build và chạy
docker build -t uvr-gpu .
docker run --gpus all -v $(pwd)/input:/input -v $(pwd)/output:/output uvr-gpu \
--input /input/song.mp3 --output /output --model MDX-Net
Các phụ thuộc chính trong requirements.txt #
altgraph==0.17.3
audioread==3.0.0
einops==0.6.0
julius==0.2.7
librosa==0.9.2
matchering==2.0.6
omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
pydub==0.25.1
pyrubberband==0.3.0
pytorch_lightning==2.0.0
resampy==0.4.2
scipy==1.9.3
torch
onnxruntime
onnxruntime-gpu
numpy==1.23.5
Chọn model và cấu hình #
UVR đi kèm với hàng chục model đã huấn luyện sẵn. Việc chọn model phù hợp phụ thuộc vào audio đầu vào và chất lượng đầu ra mong muốn.
Các model tích hợp #
| Model | Kiến trúc | Phù hợp nhất cho | Tốc độ | VRAM |
|---|---|---|---|---|
MDX-Net Main | MDX-Net | Tách giọng chung | Trung bình | 6GB |
MDX23C | MDX23C | Mix phức tạp, chất lượng cao | Chậm | 8GB |
VR-DeEcho | VR-Net | Khử nhiễu + tách giọng | Nhanh | 4GB |
UVR-MDX-NET Inst Main | MDX-Net | Trích xuất nhạc nền | Trung bình | 6GB |
Demucs v4 | Demucs | Tách 4-stem | Chậm | 8GB |
UVR-BVE | VR-Net | Loại bỏ bleed/vocal | Nhanh | 4GB |
Chiến lược chọn model #
# Luồng quyết định chọn model
Track là bài pop/rock tiêu chuẩn?
Có → MDX-Net Main (cân bằng tốt nhất giữa tốc độ và chất lượng)
Không → Là mix orchestra phức tạp?
Có → MDX23C (chất lượng cao hơn, chậm hơn)
Không → Là bản thu live có tiếng đám đông?
Có → VR-DeEcho (tích hợp khử nhiễu)
Không → Demucs v4 (tách 4-stem đầy đủ)
Cài đặt khuyến nghị cho chất lượng tối đa #
# UVR Settings → "Chọn Model MDX-Net"
# Phương pháp xử lý: "MDX-Net"
# Kích thước Segment: 256 (thấp hơn = nhiều VRAM hơn, chất lượng tốt hơn)
# Độ chồng lấp: 0.75 (cao hơn = chuyển tiếp mượt hơn, chậm hơn)
# Khử nhiễu: Bật
# Xử lý hậu kỳ: Bật
# Cho GPU có VRAM 8GB+:
Kích thước Segment: 256
Độ chồng lấp: 0.85
Kích thước Batch: 4
# Cho GPU có VRAM 6GB:
Kích thước Segment: 128
Độ chồng lấp: 0.50
Kích thước Batch: 1
# Chỉ dùng CPU:
Kích thước Segment: 64
Độ chồng lấp: 0.25
Kích thước Batch: 1
Dự kiến chậm hơn 5-10 lần
Cấu hình xử lý hàng loạt #
# Để xử lý cả thư mục qua GUI:
# 1. Nhấp "Input" → Chọn Thư mục
# 2. Bật checkbox "Batch Processing"
# 3. Đặt thư mục đầu ra
# 4. Chọn "Same as input" hoặc thư mục tùy chỉnh
# 5. Chọn model và nhấp "Start Processing"
# Cấu trúc file đầu ra:
input/
track1.mp3
track2.mp3
tracks/
track1/Instrumental_track1.wav
track1/Vocals_track1.wav
track2/Instrumental_track2.wav
track2/Vocals_track2.wav
Tích hợp với các công cụ phổ biến #
Tích hợp với RVC (Retrieval-based Voice Conversion) #
UVR + RVC là pipeline phổ biến để tạo cover giọng AI:
# Pipeline: Bài gốc → UVR → Chỉ giọng → RVC → Cover giọng AI
# Bài gốc → UVR → Nhạc nền → Mix cuối
# Bước 1: Trích xuất giọng sạch với UVR
# Model: MDX-Net Main
# Cài đặt: Segment 256, Overlap 0.75, Denoise ON
# Đầu ra: Vocals.wav (giọng sạch, tách biệt)
# Bước 2: Xử lý qua RVC
python infer-web.py --input Vocals.wav --model weights/MyVoice.pth --pitch 0
# Bước 3: Mix giọng đã chuyển đổi với nhạc nền từ UVR
ffmpeg -i RVC_Converted_Vocals.wav -i UVR_Instrumental.wav \
-filter_complex "[0:a][1:a]amix=inputs=2:duration=longest" \
-ac 2 -ar 44100 Final_Cover.wav
Tích hợp với GPT-SoVITS #
# GPT-SoVITS yêu cầu đầu vào giọng sạch để nhân bản giọng
# Dùng UVR để tiền xử lý dữ liệu huấn luyện
# Bước 1: Tách giọng hàng loạt từ mẫu huấn luyện
# Cài đặt UVR:
# Model: UVR-MDX-NET Inst Main (giọng là sản phẩm phụ)
# Hoặc: MDX-Net Main → giữ đầu ra Vocals
# Bước 2: Cung cấp giọng sạch cho cắt lát GPT-SoVITS
python slice_audio.py --input UVR_Vocals/ --output slices/ --threshold -34
# Bước 3: Dùng các lát cắt để huấn luyện SoVITS
python webui.py --voice_slices slices/
Tích hợp với demucs CLI #
UVR sử dụng Demucs nội bộ, nhưng bạn cũng có thể chuỗi phiên bản CLI:
# Dùng demucs trực tiếp cho tách 4-stem
demucs --mp3 --two-stems=vocals input.mp3
# Sau đó dùng UVR để làm sạch giọng thêm
# UVR có thể xử lý đầu ra demucs để tách giọng/nhạc nền tinh vi hơn
python separate.py --input demucs_vocals.wav --model VR-DeEcho --output cleaned/
Pipeline xử lý hậu kỳ FFmpeg #
# Chuyển đổi đầu ra UVR sang nhiều định dạng
for file in UVR_Output/*.wav; do
base=$(basename "$file" .wav)
# MP3 chất lượng cao
ffmpeg -i "$file" -codec:a libmp3lame -b:a 320k "${base}.mp3"
# FLAC để lưu trữ
ffmpeg -i "$file" -codec:a flac "${base}.flac"
# OGG để stream
ffmpeg -i "$file" -codec:a libvorbis -q:a 6 "${base}.ogg"
done
Benchmark và hiệu năng thực tế #
So sánh tốc độ xử lý #
Tất cả test thực hiện trên file WAV stereo 4 phút 44.1kHz:
| Phần cứng | MDX-Net | MDX23C | Demucs v4 | VR-DeEcho |
|---|---|---|---|---|
| RTX 4090 (24GB) | 18giây | 42giây | 55giây | 12giây |
| RTX 3060 (12GB) | 35giây | 85giây | 110giây | 22giây |
| GTX 1060 (6GB) | 72giây | 180giây | 240giây | 45giây |
| Apple M3 Pro | 28giây | 68giây | 90giây | 18giây |
| Ryzen 9 7950X (CPU) | 180giây | 420giây | 540giây | 110giây |
Chất lượng phân tách (SDR — Tỷ lệ Tín hiệu-Meo mó) #
SDR cao hơn = chất lượng phân tách tốt hơn, test trên benchmark MUSDB18:
| Model | SDR Giọng | SDR Nhạc nền | Mức tạp âm |
|---|---|---|---|
| MDX23C | 9.42 | 14.8 | Thấp |
| Demucs v4 | 9.28 | 14.2 | Thấp |
| MDX-Net Main | 8.85 | 13.6 | Trung bình |
| VR-DeEcho | 7.92 | 12.4 | Trung bình |
Các trường hợp sử dụng thực tế #
- Tạo track karaoke — Xử lý 50+ bài qua đêm với chế độ batch. Thờ gian xử lý trung bình mỗi track trên RTX 3060: 35 giây.
- Làm sạch dataset giọng nói — Tiền xử lý 1.000+ mẫu cho huấn luyện RVC/GPT-SoVITS. Model VR-DeEcho loại bỏ bleed nền trong bản thu giọng.
- Sản xuất remix — Trích xuất stem từ các bản thu cũ thiếu master đa track. MDX23C tạo track nhạc nền sạch nhất để sampling.
- Chỉnh sửa podcast — Tách giọng đồng host khi chỉ có bản thu mix. Lưu ý: UVR không thiết kế cho tách lờ nói — xem phần Hạn chế.
Sử dụng nâng cao và tăng cường production #
Quản lý bộ nhớ GPU #
# Nếu gặp lỗi "CUDA out of memory":
# Tùy chọn 1: Giảm kích thước segment trong GUI
# Settings → Segment Size → Giảm từ 256 xuống 128 hoặc 64
# Tùy chọn 2: Bật "Use CPU for secondary model"
# Chuyển xử lý hậu kỳ sang CPU, tiết kiệm VRAM
# Tùy chọn 3: Xử lý theo chunk qua command line
python separate.py \
--input long_track.wav \
--model MDX-Net \
--segment 64 \
--overlap 0.25 \
--output chunks/
# Tùy chọn 4: Đóng các ứng dụng GPU khác
# UVR yêu cầu truy cập VRAM độc quyền trong quá trình xử lý
# Đóng trình duyệt, game và các ứng dụng CUDA khác
Quản lý và lưu trữ model #
# UVR lưu model trong thư mục ứng dụng
# Windows: C:\Users\<User>\AppData\Local\Programs\Ultimate Vocal Remover\models\
# macOS: /Applications/Ultimate Vocal Remover.app/Contents/models/
# Linux: ./models/
# Để di chuyển model giữa các máy:
# Sao chép toàn bộ thư mục models/
rsync -avz --progress models/ user@new-server:/opt/uvr/models/
# Model từ 50MB đến 500MB mỗi cái
# Bộ model đầy đủ: ~8GB tải xuống, ~12GB trên đĩa
Script tự động hóa workflow #
#!/usr/bin/env python3
"""Script xử lý hàng loạt UVR cho workflow production."""
import os
import subprocess
import json
import logging
from pathlib import Path
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("uvr-batch")
UVR_PATH = "/path/to/UVR.py"
MODEL = "MDX-Net Main"
INPUT_DIR = "./input"
OUTPUT_DIR = "./output"
def process_file(input_path: str, output_dir: str) -> dict:
"""Xử lý một file audio qua UVR."""
cmd = [
"python", UVR_PATH,
"--input", input_path,
"--output", output_dir,
"--model", MODEL,
"--segment", "256",
"--overlap", "0.75"
]
result = subprocess.run(cmd, capture_output=True, text=True)
return {
"input": input_path,
"success": result.returncode == 0,
"stderr": result.stderr if result.returncode != 0 else None
}
def main():
os.makedirs(OUTPUT_DIR, exist_ok=True)
results = []
for file in Path(INPUT_DIR).glob("*"):
if file.suffix.lower() in {".mp3", ".wav", ".flac", ".m4a"}:
logger.info(f"Đang xử lý: {file.name}")
result = process_file(str(file), OUTPUT_DIR)
results.append(result)
# Lưu báo cáo batch
with open(f"{OUTPUT_DIR}/batch_report.json", "w") as f:
json.dump(results, f, indent=2)
success_count = sum(1 for r in results if r["success"])
logger.info(f"Hoàn tất: {success_count}/{len(results)} file đã xử lý")
if __name__ == "__main__":
main()
Giám sát và ghi log #
# UVR ghi log xử lý qua GUI:
# Settings Button → Error Log → View Details
# Cho triển khai headless, bọc với logging:
import sys
import logging
from datetime import datetime
log_file = f"uvr_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log"
logging.basicConfig(
level=logging.INFO,
format='%(asctime)s [%(levelname)s] %(message)s',
handlers=[
logging.FileHandler(log_file),
logging.StreamHandler(sys.stdout)
]
)
# Giám sát mức sử dụng GPU trong quá trình xử lý
watch -n 1 nvidia-smi
So sánh với các lựa chọn thay thế #
| Tính năng | Ultimate Vocal Remover | demucs | Spleeter | Open-Unmix |
|---|---|---|---|---|
| GitHub Stars | 24.700 | 10.100 | 28.200 | 1.500 |
| Giao diện GUI | Tkinter GUI gốc | Không (chỉ CLI) | Không (chỉ CLI) | Không (chỉ CLI) |
| Model pretrained | 20+ tích hợp | 5 biến thể | 2-stem, 4-stem, 5-stem | Chỉ 4-stem |
| Hỗ trợ GPU | CUDA, MPS, DirectML | CUDA | CUDA | CUDA, CPU |
| Hỗ trợ macOS | Đầy đủ (Intel + Apple Silicon) | Hạn chế | Hạn chế | Hạn chế |
| Trình cài Windows | .exe độc lập | Chỉ pip/conda | Chỉ pip/conda | Chỉ pip |
| Tách chỉ giọng | Có (model chuyên dụng) | Chế độ 2-stem | Chế độ 2-stem | Chỉ 4-stem |
| Xử lý khử nhiễu | Tích hợp (VR-DeEcho) | Không | Không | Không |
| Xử lý hàng loạt | GUI + CLI | Chỉ CLI | Chỉ CLI | Chỉ CLI |
| Time-stretch/Pitch-shift | Tích hợp (Rubber Band) | Không | Không | Không |
| Bảo trì đang hoạt động | Có (phát hành 2025) | Đã lưu trữ (T1/2025) | Hạn chế | Tối thiểu |
| Giấy phép | MIT | MIT | MIT | MIT |
Điểm khác biệt then chốt: UVR là công cụ duy nhất trong bảng so sánh này có GUI desktop gốc, tích hợp marketplace model, và các model chuyên dụng đơn mục đích (như VR-DeEcho để khử nhiễu). demucs và Spleeter là thư viện hướng developer. Open-Unmix chủ yếu là triển khai tham chiếu nghiên cứu.
Hạn chế — Đánh giá trung thực #
UVR được xây dựng dành riêng cho tách giọng nhạc. Không phải công cụ phù hợp cho mọi tác vụ audio:
Tách lờ nói — Các model UVR được huấn luyện trên dataset nhạc (MUSDB18, dataset nội bộ). Tách hai ngườ đang nói cùng lúc cho kết quả kém. Để tách lờ nói, hãy dùng pyannote.audio hoặc SpeechBrain.
Xử lý thờ gian thực — UVR xử lý toàn bộ file offline. Độ trễ đượ tính bằng giây, không phải mili giây. Để tách nguồn thờ gian thực, hãy xem các triển khai streaming Demucs hoặc NVIDIA Maxine.
Đầu vào chất lượng thấp — Tách file MP3 128kbps hoặc bản thu điện thoại sẽ khuếch đại artifact nén. Nguyên tắc “rác vào rác ra” vẫn áp dụng. Audio nguồn nên là MP3 tối thiểu 256kbps hoặc WAV/FLAC lossless.
Thể loại cực đoan — Growl death metal, hát cổ họng, và giọng autotune nặng đôi khi rò rỉ vào track nhạc nền vì các âm sắc này hiếm trong dữ liệu huấn luyện.
Hạn chế GPU AMD — Hỗ trợ DirectML tồn tại trên nhánh riêng nhưng chưa trưởng thành bằng CUDA. Ngườ dùng AMD nên chuẩn bị cho crash thờng xuyên hoặc hiệu năng chậm hơn so với card Nvidia tương đương.
Không có định dạng VST/AU plugin — UVR chạy như ứng dụng độc lập. Không thể tải như plugin bên trong Ableton, Logic hay FL Studio. Dùng định tuyến audio bên ngoài hoặc xử lý stem trước.
Câu hỏi thường gặp #
Hỏi: Tôi có thể chạy UVR mà không cần GPU không? Có. UVR tự động chuyển sang xử lý CPU. Dự kiến chậm hơn 5–10 lần. CPU 8 nhân hiện đại xử lý track 4 phút khoảng 3 phút với model MDX-Net. Đặt kích thước segment 64 hoặc thấp hơn để phù hợp giới hạn bộ nhớ CPU.
Hỏi: Tại sao UVR chỉ cài được vào ổ C:\ trên Windows? Trình cài đặt đóng gói Python, PyTorch và FFmpeg vào cấu trúc đường dẫn cố định. Di chuyển cài đặt phá vỡ các đường dẫn tương đối đã hardcode giữa runtime và thư mục model. Đội ngũ phát triển đã biết về hạn chế này.
Hỏi: Model nào tạo track nhạc nền sạch nhất? MDX23C liên tục đạt điểm cao nhất trên benchmark SDR (9.42 vocal SDR trên MUSDB18). Đa số track pop/rock, MDX-Net Main cung cấp cân bằng tốt nhất giữa chất lượng và tốc độ. Test nhiều model trên đoạn clip 30 giây trước khi xử lý album đầy đủ.
Hỏi: Làm sao xử lý file FLAC, M4A hoặc OGG?
Cài FFmpeg và đảm bảo nó khả dụng trong PATH hệ thống. UVR dùng FFmpeg làm bộ giải mã backend cho mọi định dạng không phải WAV. Trên Linux, sudo apt install ffmpeg. Trên macOS, brew install ffmpeg. Trình cài Windows đã tự động đóng gói FFmpeg.
Hỏi: Đầu ra UVR có thể dùng cho phát hành thương mại không? Phần mềm UVR và các model của nó đều có giấy phép MIT, cho phép sử dụng thương mại. Tuy nhiên, luật bản quyền vẫn áp dụng cho tài liệu gốc. Xóa giọng khỏi bài hát có bản quyền không trao cho bạn quyền phân phối nhạc nền kết quả. Tham khảo ý kiến pháp lý cho câu hỏi cấp phép thương mại.
Hỏi: Tại sao phần mềm diệt virus gắn cờ trình cài UVR? Trình cài Windows của UVR không được ký mã bằng chứng chỉ EV đắt tiền. Một số engine diệt virus phát hiện heuristically các trình cài chưa ký. Trình cài được build từ repository mã nguồn mở. Xác minh hash SHA256 với trang release hoặc build từ source nếu muốn.
Hỏi: Làm sao cập nhật model mà không cài lại UVR? Mở UVR và nhấp nút “Download Center”. Các model mới xuất hiện tại đây khi đội ngũ phát triển phát hành. Nhấp biểu tượng tải bên cạnh mỗi model. Các model được lưu độc lập với binary ứng dụng.
Kết luận #
Ultimate Vocal Remover lấp đầy khoảng trống mà thư viện chỉ dùng CLI không thể: cung cấp khả năng tách giọng chất lượng cao, dễ tiếp cận qua giao diện trực quan và lựa chọn model đã được chọn lọc. Đối với producer xây dựng pipeline AI voice, operator karaoke xử lý hàng trăm track, hoặc developer cần dataset giọng sạch, UVR loại bỏ các rắc rối môi trường Python đi kèm với việc chạy Demucs hay Spleeter thủ công.
Các bước tiếp theo:
- Tải UVR v5.6 từ trang release chính thức
- Xử lý track test bằng MDX-Net Main để xác thực thiết lập GPU
- Tham gia thảo luận cộng đồng UVR để nhận gợi ý model
- Theo dõi kênh Telegram dibi8 để nhận hướng dẫn công cụ AI audio hàng tuần
Hosting Và Hạ Tầng Được Đề Xuất #
Trước khi triển khai các công cụ trên vào production, bạn cần hạ tầng vững chắc. Hai lựa chọn dibi8 đang dùng:
- DigitalOcean — Credit miễn phí $200 trong 60 ngày, 14+ khu vực toàn cầu. Lựa chọn mặc định cho dev chạy AI tools open source.
- HTStack — VPS Hong Kong, độ trễ thấp khi truy cập từ Trung Quốc. Cùng IDC đang host dibi8.com.
Liên kết tiếp thị — không tăng chi phí của bạn, giúp dibi8.com hoạt động.
Nguồn và Tài liệu tham khảo #
- Ultimate Vocal Remover GitHub Repository: https://github.com/Anjok07/ultimatevocalremovergui
- Ghi chú phát hành UVR v5.6: https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
- Demucs (Facebook Research): https://github.com/facebookresearch/demucs
- Spleeter (Deezer): https://github.com/deezer/spleeter
- Open-Unmix (SIGSEP): https://github.com/sigsep/open-unmix-pytorch
- Dataset MUSDB18: https://sigsep.github.io/datasets/musdb.html
- Bài báo MDX-Net: https://arxiv.org/abs/2111.12203
- Takahashi et al., Multi-scale Multi-band DenseNets: https://arxiv.org/pdf/1706.09588.pdf
- Tài liệu ONNX Runtime: https://onnxruntime.ai/docs/
- Thư viện Audio Rubber Band: https://breakfastquay.com/rubberband/
💬 Bình luận & Thảo luận