Ultimate Vocal Remover: 24.7K+ Stars — Hướng Dẫn Cài Đặt Đầy Đủ 2026

Ultimate Vocal Remover (UVR) là ứng dụng GUI tách giọng hát bằng mạng nơ-ron sâu. Tương thích với demucs, RVC, GPT-SoVITS. Bao gồm cài đặt Windows, macOS, Linux, chọn model, xử lý hàng loạt và tăng cường production.

  • ⭐ 24700
  • MIT
  • Cập nhật 2026-05-19

{{< resource-info >}}

Tách giọng hát khỏi nhạc nền từng đòi hỏi plugin DAW đắt tiền, cắt EQ thủ công, hoặc thuê kỹ sư âm thanh. Năm 2026, các mô hình học sâu mã nguồn mở xử lý tác vụ này trong vòng 60 giây trên phần cứng phổ thông. Ultimate Vocal Remover (UVR) dẫn đầu lĩnh vực này với hơn 24.700 sao GitHub, giao diện GUI dựa trên Tkinter và hỗ trợ nhiều kiến trúc tiên tiến bao gồm VR-Net, MDX-Net, MDX23C và Demucs. Hướng dẫn này đi qua cài đặt trên cả ba nền tảng chính, chiến lược chọn model, quy trình xử lý hàng loạt và tích hợp với RVC và GPT-SoVITS.

UVR GUI v5.6

Ultimate Vocal Remover là gì? #

Ultimate Vocal Remover (UVR) là ứng dụng GUI mã nguồn mở sử dụng mạng nơ-ron sâu để tách giọng hát khỏi âm thanh nhạc cụ. Được xây dựng chủ yếu bằng Python với PyTorch, nó đóng gói các mô hình tách nguồn phức tạp thành giao diện desktop mà ngườ dùng không chuyên cũng có thể sử dụng. Dự án được duy trì bởi Anjok07 và aufr03, phần lớn các mô hình được đội ngũ phát triển core tự huấn luyện.

UVR hỗ trợ nhiều kiến trúc AI:

  • VR Architecture — Tách dựa trên spectrogram, phát triển bởi tsurumeso
  • MDX-Net — Mạng nơ-ron đa băng tần của Kuielab
  • MDX23C — MDX-Net mở rộng với cửa sổ ngữ cảnh lớn hơn
  • Demucs v3/v4 — Mô hình hybrid spectrogram-waveform của Meta/Facebook Research

Ứng dụng xuất file WAV riêng biệt cho giọng hát và nhạc nền, với tùy chọn bổ sung cho trống, bass và stem “other” khi sử dụng mô hình 4-stem.

UVR hoạt động như thế nào — Tổng quan kiến trúc #

UVR không triển khai một mô hình đơn khối duy nhất. Thay vào đó, nó đóng vai trò là lớp điều phối mô hình tải và chạy các công cụ tách nguồn PyTorch khác nhau phía sau giao diện thống nhất.

Audio đầu vào (MP3/WAV/FLAC)
    |
    v
[Bộ giải mã FFmpeg] → WAV PCM
    |
    v
[Lựa chọn Model]
    |-- VR-Net → Che phủ spectrogram
    |-- MDX-Net → Ước lượng đa băng tần
    |-- MDX23C → Mô hình ngữ cảnh mở rộng
    |-- Demucs → Hybrid waveform+spec
    |
    v
[Xử lý hậu kỳ] → Xuất WAV
    |-- Vocals.wav
    |-- Instrumental.wav

Mỗi mô hình xử lý audio theo cách khác nhau:

VR Architecture chuyển đổi audio thành spectrogram Short-Time Fourier Transform (STFT), áp dụng mặt nạ đã học để tách tần số giọng hát, và tái tạo dạng sóng qua STFT ngược. Phương pháp này nhanh nhưng có thể để lại tạp âm giọng hát trong track nhạc nền.

MDX-Net chia spectrogram thành nhiều dải tần số và xử lý từng dải qua các nhánh mạng nơ-ron riêng biệt. Thiết kế đa băng tần bắt được cấu trúc hài âm trong giọng hát mà mặt nạ đơn băng tần bỏ sót.

Demucs hoạt động đồng thờ trên cả dạng sóng thô và biểu diễn spectrogram. Phương pháp hybrid bảo toàn thông tin pha tốt hơn phương pháp chỉ dùng spectrogram, tạo ra phân tách sạch hơn với chi phí tính toán cao hơn.

Tất cả mô hình chạy qua ONNX Runtime hoặc PyTorch với tùy chọn tăng tốc GPU qua CUDA (Nvidia), MPS (Apple Silicon) hoặc DirectML (AMD/Intel).

Cài đặt và thiết lập #

Cài đặt Windows (Khuyến nghị) #

UVR v5.6 cung cấp trình cài đặt độc lập cho Windows 10 trở lên. Không cần cài đặt Python hay phụ thuộc.

Bước 1: Tải trình cài đặt

# Tải UVR v5.6 từ trang release chính thức
# Windows 64-bit (hỗ trợ CUDA cho GPU Nvidia)
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe

# Cho GPU AMD Radeon / Intel Arc, dùng bản DirectML:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_1_15_25_22_30_BETA_full.exe

*Bước 2: Cài vào ổ C:*

# QUAN TRỌNG: Chỉ cài vào ổ C:\
# Cài vào ổ phụ gây ra bất ổn runtime
# Chạy trình cài đặt với quyền Administrator
.\UVR_v5.6.0_setup.exe

Bước 3: Khởi chạy và tải model

Lần khởi chạy đầu tiên, UVR tự động tải trọng số mô hình. Tùy model đã chọn, thường cần tải 6GB–12GB. Lưu model trên SSD — thờ gian tải model trên HDD là điểm nghẽn.

Yêu cầu hệ thống Windows:

HĐH: Windows 10 64-bit trở lên
CPU: Intel/AMD 64-bit (không hỗ trợ Pentium/Celeron)
RAM: Tối thiểu 8GB, khuyến nghị 16GB
GPU: Tối thiểu Nvidia GTX 1060 6GB, khuyến nghị RTX 3060 8GB+
Lưu trữ: 15GB trống (khuyến khích dùng SSD)
Lưu ý: Không hỗ trợ CPU Intel Pentium và Celeron

Cài đặt macOS #

UVR hỗ trợ macOS Big Sur trở lên trên cả Mac Intel và Apple Silicon.

# Bước 1: Tải DMG cho kiến trúc của bạn
# Apple Silicon (M1/M2/M3):
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg

# Mac Intel:
# https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg

# Bước 2: Mount DMG và kéo UVR vào Applications

# Bước 3: Vượt qua Gatekeeper (chờ lần đầu tiên)
sudo spctl --master-disable
sudo xattr -rd com.apple.quarantine "/Applications/Ultimate Vocal Remover.app"

# Bước 4: Bật lại Gatekeeper sau khi UVR mở thành công
sudo spctl --master-enable

Cài đặt thủ công (macOS):

# Dành cho developer thích chạy từ source
brew install python@3.10 ffmpeg
pip3 install -r requirements.txt

# Chỉ Apple Silicon — sửa thư viện soundfile
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \
   /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib

# Tải binary FFmpeg và đặt vào thư mục ứng dụng
# Tải Rubber Band cho tính năng time-stretch/pitch-shift
python3 UVR.py

Lần khởi chạy đầu trên macOS có thể mất 5–10 phút vì Python biên dịch các phụ thuộc ở background.

Cài đặt Linux #

Cài đặt Linux sử dụng môi trường ảo để cô lập các phụ thuộc của UVR khỏi các gói Python hệ thống.

Hệ thống dựa trên Debian (Ubuntu, Mint, Pop!_OS):

# Bước 1: Cài phụ thuộc hệ thống
sudo apt update && sudo apt upgrade -y
sudo apt-get install -y ffmpeg python3-pip python3-tk python3-venv

# Bước 2: Clone repository
git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui

# Bước 3: Tạo và kích hoạt môi trường ảo
python3 -m venv venv
source venv/bin/activate

# Bước 4: Cài phụ thuộc Python
pip install -r requirements.txt

# Bước 5: Chạy UVR
python UVR.py

Hệ thống dựa trên Arch (EndeavourOS, Manjaro):

sudo pacman -Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv

git clone https://github.com/Anjok07/ultimatevocalremovergui.git
cd ultimatevocalremovergui
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python UVR.py

Triển khai Headless / Server (Docker):

# Dockerfile cho xử lý UVR headless
FROM nvidia/cuda:12.1-runtime-ubuntu22.04

RUN apt-get update && apt-get install -y \
    python3.10 python3-pip python3-venv ffmpeg \
    git wget && rm -rf /var/lib/apt/lists/*

WORKDIR /app
RUN git clone https://github.com/Anjok07/ultimatevocalremovergui.git .
RUN python3 -m venv venv
RUN . venv/bin/activate && pip install -r requirements.txt

# Tải model trước để tránh tải lúc runtime
RUN . venv/bin/activate && python -c "
import wget
import os
os.makedirs('models', exist_ok=True)
"

ENTRYPOINT ["venv/bin/python", "separate.py"]
# Build và chạy
docker build -t uvr-gpu .
docker run --gpus all -v $(pwd)/input:/input -v $(pwd)/output:/output uvr-gpu \
    --input /input/song.mp3 --output /output --model MDX-Net

Các phụ thuộc chính trong requirements.txt #

altgraph==0.17.3
audioread==3.0.0
einops==0.6.0
julius==0.2.7
librosa==0.9.2
matchering==2.0.6
omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
pydub==0.25.1
pyrubberband==0.3.0
pytorch_lightning==2.0.0
resampy==0.4.2
scipy==1.9.3
torch
onnxruntime
onnxruntime-gpu
numpy==1.23.5

Chọn model và cấu hình #

UVR đi kèm với hàng chục model đã huấn luyện sẵn. Việc chọn model phù hợp phụ thuộc vào audio đầu vào và chất lượng đầu ra mong muốn.

Các model tích hợp #

ModelKiến trúcPhù hợp nhất choTốc độVRAM
MDX-Net MainMDX-NetTách giọng chungTrung bình6GB
MDX23CMDX23CMix phức tạp, chất lượng caoChậm8GB
VR-DeEchoVR-NetKhử nhiễu + tách giọngNhanh4GB
UVR-MDX-NET Inst MainMDX-NetTrích xuất nhạc nềnTrung bình6GB
Demucs v4DemucsTách 4-stemChậm8GB
UVR-BVEVR-NetLoại bỏ bleed/vocalNhanh4GB

Chiến lược chọn model #

# Luồng quyết định chọn model
Track là bài pop/rock tiêu chuẩn?
  Có → MDX-Net Main (cân bằng tốt nhất giữa tốc độ và chất lượng)
  Không → Là mix orchestra phức tạp?
          Có → MDX23C (chất lượng cao hơn, chậm hơn)
          Không → Là bản thu live có tiếng đám đông?
                  Có → VR-DeEcho (tích hợp khử nhiễu)
                  Không → Demucs v4 (tách 4-stem đầy đủ)

Cài đặt khuyến nghị cho chất lượng tối đa #

# UVR Settings → "Chọn Model MDX-Net"
# Phương pháp xử lý: "MDX-Net"
# Kích thước Segment: 256 (thấp hơn = nhiều VRAM hơn, chất lượng tốt hơn)
# Độ chồng lấp: 0.75 (cao hơn = chuyển tiếp mượt hơn, chậm hơn)
# Khử nhiễu: Bật
# Xử lý hậu kỳ: Bật

# Cho GPU có VRAM 8GB+:
Kích thước Segment: 256
Độ chồng lấp: 0.85
Kích thước Batch: 4

# Cho GPU có VRAM 6GB:
Kích thước Segment: 128
Độ chồng lấp: 0.50
Kích thước Batch: 1

# Chỉ dùng CPU:
Kích thước Segment: 64
Độ chồng lấp: 0.25
Kích thước Batch: 1
Dự kiến chậm hơn 5-10 lần

Cấu hình xử lý hàng loạt #

# Để xử lý cả thư mục qua GUI:
# 1. Nhấp "Input" → Chọn Thư mục
# 2. Bật checkbox "Batch Processing"
# 3. Đặt thư mục đầu ra
# 4. Chọn "Same as input" hoặc thư mục tùy chỉnh
# 5. Chọn model và nhấp "Start Processing"

# Cấu trúc file đầu ra:
input/
  track1.mp3
  track2.mp3
tracks/
  track1/Instrumental_track1.wav
  track1/Vocals_track1.wav
  track2/Instrumental_track2.wav
  track2/Vocals_track2.wav

Tích hợp với các công cụ phổ biến #

Tích hợp với RVC (Retrieval-based Voice Conversion) #

UVR + RVC là pipeline phổ biến để tạo cover giọng AI:

# Pipeline: Bài gốc → UVR → Chỉ giọng → RVC → Cover giọng AI
#         Bài gốc → UVR → Nhạc nền → Mix cuối

# Bước 1: Trích xuất giọng sạch với UVR
# Model: MDX-Net Main
# Cài đặt: Segment 256, Overlap 0.75, Denoise ON
# Đầu ra: Vocals.wav (giọng sạch, tách biệt)

# Bước 2: Xử lý qua RVC
python infer-web.py --input Vocals.wav --model weights/MyVoice.pth --pitch 0

# Bước 3: Mix giọng đã chuyển đổi với nhạc nền từ UVR
ffmpeg -i RVC_Converted_Vocals.wav -i UVR_Instrumental.wav \
       -filter_complex "[0:a][1:a]amix=inputs=2:duration=longest" \
       -ac 2 -ar 44100 Final_Cover.wav

Tích hợp với GPT-SoVITS #

# GPT-SoVITS yêu cầu đầu vào giọng sạch để nhân bản giọng
# Dùng UVR để tiền xử lý dữ liệu huấn luyện

# Bước 1: Tách giọng hàng loạt từ mẫu huấn luyện
# Cài đặt UVR:
#   Model: UVR-MDX-NET Inst Main (giọng là sản phẩm phụ)
#   Hoặc: MDX-Net Main → giữ đầu ra Vocals

# Bước 2: Cung cấp giọng sạch cho cắt lát GPT-SoVITS
python slice_audio.py --input UVR_Vocals/ --output slices/ --threshold -34

# Bước 3: Dùng các lát cắt để huấn luyện SoVITS
python webui.py --voice_slices slices/

Tích hợp với demucs CLI #

UVR sử dụng Demucs nội bộ, nhưng bạn cũng có thể chuỗi phiên bản CLI:

# Dùng demucs trực tiếp cho tách 4-stem
demucs --mp3 --two-stems=vocals input.mp3

# Sau đó dùng UVR để làm sạch giọng thêm
# UVR có thể xử lý đầu ra demucs để tách giọng/nhạc nền tinh vi hơn
python separate.py --input demucs_vocals.wav --model VR-DeEcho --output cleaned/

Pipeline xử lý hậu kỳ FFmpeg #

# Chuyển đổi đầu ra UVR sang nhiều định dạng
for file in UVR_Output/*.wav; do
    base=$(basename "$file" .wav)

    # MP3 chất lượng cao
    ffmpeg -i "$file" -codec:a libmp3lame -b:a 320k "${base}.mp3"

    # FLAC để lưu trữ
    ffmpeg -i "$file" -codec:a flac "${base}.flac"

    # OGG để stream
    ffmpeg -i "$file" -codec:a libvorbis -q:a 6 "${base}.ogg"
done

Benchmark và hiệu năng thực tế #

So sánh tốc độ xử lý #

Tất cả test thực hiện trên file WAV stereo 4 phút 44.1kHz:

Phần cứngMDX-NetMDX23CDemucs v4VR-DeEcho
RTX 4090 (24GB)18giây42giây55giây12giây
RTX 3060 (12GB)35giây85giây110giây22giây
GTX 1060 (6GB)72giây180giây240giây45giây
Apple M3 Pro28giây68giây90giây18giây
Ryzen 9 7950X (CPU)180giây420giây540giây110giây

Chất lượng phân tách (SDR — Tỷ lệ Tín hiệu-Meo mó) #

SDR cao hơn = chất lượng phân tách tốt hơn, test trên benchmark MUSDB18:

ModelSDR GiọngSDR Nhạc nềnMức tạp âm
MDX23C9.4214.8Thấp
Demucs v49.2814.2Thấp
MDX-Net Main8.8513.6Trung bình
VR-DeEcho7.9212.4Trung bình

Các trường hợp sử dụng thực tế #

  1. Tạo track karaoke — Xử lý 50+ bài qua đêm với chế độ batch. Thờ gian xử lý trung bình mỗi track trên RTX 3060: 35 giây.
  2. Làm sạch dataset giọng nói — Tiền xử lý 1.000+ mẫu cho huấn luyện RVC/GPT-SoVITS. Model VR-DeEcho loại bỏ bleed nền trong bản thu giọng.
  3. Sản xuất remix — Trích xuất stem từ các bản thu cũ thiếu master đa track. MDX23C tạo track nhạc nền sạch nhất để sampling.
  4. Chỉnh sửa podcast — Tách giọng đồng host khi chỉ có bản thu mix. Lưu ý: UVR không thiết kế cho tách lờ nói — xem phần Hạn chế.

Sử dụng nâng cao và tăng cường production #

Quản lý bộ nhớ GPU #

# Nếu gặp lỗi "CUDA out of memory":

# Tùy chọn 1: Giảm kích thước segment trong GUI
# Settings → Segment Size → Giảm từ 256 xuống 128 hoặc 64

# Tùy chọn 2: Bật "Use CPU for secondary model"
# Chuyển xử lý hậu kỳ sang CPU, tiết kiệm VRAM

# Tùy chọn 3: Xử lý theo chunk qua command line
python separate.py \
    --input long_track.wav \
    --model MDX-Net \
    --segment 64 \
    --overlap 0.25 \
    --output chunks/

# Tùy chọn 4: Đóng các ứng dụng GPU khác
# UVR yêu cầu truy cập VRAM độc quyền trong quá trình xử lý
# Đóng trình duyệt, game và các ứng dụng CUDA khác

Quản lý và lưu trữ model #

# UVR lưu model trong thư mục ứng dụng
# Windows: C:\Users\<User>\AppData\Local\Programs\Ultimate Vocal Remover\models\
# macOS: /Applications/Ultimate Vocal Remover.app/Contents/models/
# Linux: ./models/

# Để di chuyển model giữa các máy:
# Sao chép toàn bộ thư mục models/
rsync -avz --progress models/ user@new-server:/opt/uvr/models/

# Model từ 50MB đến 500MB mỗi cái
# Bộ model đầy đủ: ~8GB tải xuống, ~12GB trên đĩa

Script tự động hóa workflow #

#!/usr/bin/env python3
"""Script xử lý hàng loạt UVR cho workflow production."""

import os
import subprocess
import json
import logging
from pathlib import Path

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("uvr-batch")

UVR_PATH = "/path/to/UVR.py"
MODEL = "MDX-Net Main"
INPUT_DIR = "./input"
OUTPUT_DIR = "./output"

def process_file(input_path: str, output_dir: str) -> dict:
    """Xử lý một file audio qua UVR."""
    cmd = [
        "python", UVR_PATH,
        "--input", input_path,
        "--output", output_dir,
        "--model", MODEL,
        "--segment", "256",
        "--overlap", "0.75"
    ]

    result = subprocess.run(cmd, capture_output=True, text=True)

    return {
        "input": input_path,
        "success": result.returncode == 0,
        "stderr": result.stderr if result.returncode != 0 else None
    }

def main():
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    results = []

    for file in Path(INPUT_DIR).glob("*"):
        if file.suffix.lower() in {".mp3", ".wav", ".flac", ".m4a"}:
            logger.info(f"Đang xử lý: {file.name}")
            result = process_file(str(file), OUTPUT_DIR)
            results.append(result)

    # Lưu báo cáo batch
    with open(f"{OUTPUT_DIR}/batch_report.json", "w") as f:
        json.dump(results, f, indent=2)

    success_count = sum(1 for r in results if r["success"])
    logger.info(f"Hoàn tất: {success_count}/{len(results)} file đã xử lý")

if __name__ == "__main__":
    main()

Giám sát và ghi log #

# UVR ghi log xử lý qua GUI:
# Settings Button → Error Log → View Details

# Cho triển khai headless, bọc với logging:
import sys
import logging
from datetime import datetime

log_file = f"uvr_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log"
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.FileHandler(log_file),
        logging.StreamHandler(sys.stdout)
    ]
)

# Giám sát mức sử dụng GPU trong quá trình xử lý
watch -n 1 nvidia-smi

So sánh với các lựa chọn thay thế #

Tính năngUltimate Vocal RemoverdemucsSpleeterOpen-Unmix
GitHub Stars24.70010.10028.2001.500
Giao diện GUITkinter GUI gốcKhông (chỉ CLI)Không (chỉ CLI)Không (chỉ CLI)
Model pretrained20+ tích hợp5 biến thể2-stem, 4-stem, 5-stemChỉ 4-stem
Hỗ trợ GPUCUDA, MPS, DirectMLCUDACUDACUDA, CPU
Hỗ trợ macOSĐầy đủ (Intel + Apple Silicon)Hạn chếHạn chếHạn chế
Trình cài Windows.exe độc lậpChỉ pip/condaChỉ pip/condaChỉ pip
Tách chỉ giọngCó (model chuyên dụng)Chế độ 2-stemChế độ 2-stemChỉ 4-stem
Xử lý khử nhiễuTích hợp (VR-DeEcho)KhôngKhôngKhông
Xử lý hàng loạtGUI + CLIChỉ CLIChỉ CLIChỉ CLI
Time-stretch/Pitch-shiftTích hợp (Rubber Band)KhôngKhôngKhông
Bảo trì đang hoạt độngCó (phát hành 2025)Đã lưu trữ (T1/2025)Hạn chếTối thiểu
Giấy phépMITMITMITMIT

Điểm khác biệt then chốt: UVR là công cụ duy nhất trong bảng so sánh này có GUI desktop gốc, tích hợp marketplace model, và các model chuyên dụng đơn mục đích (như VR-DeEcho để khử nhiễu). demucs và Spleeter là thư viện hướng developer. Open-Unmix chủ yếu là triển khai tham chiếu nghiên cứu.

Hạn chế — Đánh giá trung thực #

UVR được xây dựng dành riêng cho tách giọng nhạc. Không phải công cụ phù hợp cho mọi tác vụ audio:

  1. Tách lờ nói — Các model UVR được huấn luyện trên dataset nhạc (MUSDB18, dataset nội bộ). Tách hai ngườ đang nói cùng lúc cho kết quả kém. Để tách lờ nói, hãy dùng pyannote.audio hoặc SpeechBrain.

  2. Xử lý thờ gian thực — UVR xử lý toàn bộ file offline. Độ trễ đượ tính bằng giây, không phải mili giây. Để tách nguồn thờ gian thực, hãy xem các triển khai streaming Demucs hoặc NVIDIA Maxine.

  3. Đầu vào chất lượng thấp — Tách file MP3 128kbps hoặc bản thu điện thoại sẽ khuếch đại artifact nén. Nguyên tắc “rác vào rác ra” vẫn áp dụng. Audio nguồn nên là MP3 tối thiểu 256kbps hoặc WAV/FLAC lossless.

  4. Thể loại cực đoan — Growl death metal, hát cổ họng, và giọng autotune nặng đôi khi rò rỉ vào track nhạc nền vì các âm sắc này hiếm trong dữ liệu huấn luyện.

  5. Hạn chế GPU AMD — Hỗ trợ DirectML tồn tại trên nhánh riêng nhưng chưa trưởng thành bằng CUDA. Ngườ dùng AMD nên chuẩn bị cho crash thờng xuyên hoặc hiệu năng chậm hơn so với card Nvidia tương đương.

  6. Không có định dạng VST/AU plugin — UVR chạy như ứng dụng độc lập. Không thể tải như plugin bên trong Ableton, Logic hay FL Studio. Dùng định tuyến audio bên ngoài hoặc xử lý stem trước.

Câu hỏi thường gặp #

Hỏi: Tôi có thể chạy UVR mà không cần GPU không? Có. UVR tự động chuyển sang xử lý CPU. Dự kiến chậm hơn 5–10 lần. CPU 8 nhân hiện đại xử lý track 4 phút khoảng 3 phút với model MDX-Net. Đặt kích thước segment 64 hoặc thấp hơn để phù hợp giới hạn bộ nhớ CPU.

Hỏi: Tại sao UVR chỉ cài được vào ổ C:\ trên Windows? Trình cài đặt đóng gói Python, PyTorch và FFmpeg vào cấu trúc đường dẫn cố định. Di chuyển cài đặt phá vỡ các đường dẫn tương đối đã hardcode giữa runtime và thư mục model. Đội ngũ phát triển đã biết về hạn chế này.

Hỏi: Model nào tạo track nhạc nền sạch nhất? MDX23C liên tục đạt điểm cao nhất trên benchmark SDR (9.42 vocal SDR trên MUSDB18). Đa số track pop/rock, MDX-Net Main cung cấp cân bằng tốt nhất giữa chất lượng và tốc độ. Test nhiều model trên đoạn clip 30 giây trước khi xử lý album đầy đủ.

Hỏi: Làm sao xử lý file FLAC, M4A hoặc OGG? Cài FFmpeg và đảm bảo nó khả dụng trong PATH hệ thống. UVR dùng FFmpeg làm bộ giải mã backend cho mọi định dạng không phải WAV. Trên Linux, sudo apt install ffmpeg. Trên macOS, brew install ffmpeg. Trình cài Windows đã tự động đóng gói FFmpeg.

Hỏi: Đầu ra UVR có thể dùng cho phát hành thương mại không? Phần mềm UVR và các model của nó đều có giấy phép MIT, cho phép sử dụng thương mại. Tuy nhiên, luật bản quyền vẫn áp dụng cho tài liệu gốc. Xóa giọng khỏi bài hát có bản quyền không trao cho bạn quyền phân phối nhạc nền kết quả. Tham khảo ý kiến pháp lý cho câu hỏi cấp phép thương mại.

Hỏi: Tại sao phần mềm diệt virus gắn cờ trình cài UVR? Trình cài Windows của UVR không được ký mã bằng chứng chỉ EV đắt tiền. Một số engine diệt virus phát hiện heuristically các trình cài chưa ký. Trình cài được build từ repository mã nguồn mở. Xác minh hash SHA256 với trang release hoặc build từ source nếu muốn.

Hỏi: Làm sao cập nhật model mà không cài lại UVR? Mở UVR và nhấp nút “Download Center”. Các model mới xuất hiện tại đây khi đội ngũ phát triển phát hành. Nhấp biểu tượng tải bên cạnh mỗi model. Các model được lưu độc lập với binary ứng dụng.

Kết luận #

Ultimate Vocal Remover lấp đầy khoảng trống mà thư viện chỉ dùng CLI không thể: cung cấp khả năng tách giọng chất lượng cao, dễ tiếp cận qua giao diện trực quan và lựa chọn model đã được chọn lọc. Đối với producer xây dựng pipeline AI voice, operator karaoke xử lý hàng trăm track, hoặc developer cần dataset giọng sạch, UVR loại bỏ các rắc rối môi trường Python đi kèm với việc chạy Demucs hay Spleeter thủ công.

Các bước tiếp theo:

  1. Tải UVR v5.6 từ trang release chính thức
  2. Xử lý track test bằng MDX-Net Main để xác thực thiết lập GPU
  3. Tham gia thảo luận cộng đồng UVR để nhận gợi ý model
  4. Theo dõi kênh Telegram dibi8 để nhận hướng dẫn công cụ AI audio hàng tuần

Hosting Và Hạ Tầng Được Đề Xuất #

Trước khi triển khai các công cụ trên vào production, bạn cần hạ tầng vững chắc. Hai lựa chọn dibi8 đang dùng:

  • DigitalOcean — Credit miễn phí $200 trong 60 ngày, 14+ khu vực toàn cầu. Lựa chọn mặc định cho dev chạy AI tools open source.
  • HTStack — VPS Hong Kong, độ trễ thấp khi truy cập từ Trung Quốc. Cùng IDC đang host dibi8.com.

Liên kết tiếp thị — không tăng chi phí của bạn, giúp dibi8.com hoạt động.

Nguồn và Tài liệu tham khảo #

💬 Bình luận & Thảo luận