终极人声去除器:24.7K+ 星 — 2026 完整安装指南
Ultimate Vocal Remover (UVR) is a GUI application for vocal removal using deep neural networks. Compatible with demucs, RVC, GPT-SoVITS. Covers Windows, macOS, Linux installation, model selection, batch processing, and production hardening.
- MIT
- 更新于 2026-05-19
{{< 资源信息 >}} 将人声与乐器轨道分离过去需要昂贵的 DAW 插件、手动 EQ 雕刻或外包给音频工程师。 到 2026 年,开源深度学习模型将在消费类硬件上在 60 秒内处理此任务。 Ultimate Vocal Remover (UVR) 凭借 24,700 多个 GitHub star、基于 Tkinter 的 GUI 以及对多种最先进架构(包括 VR-Net、MDX-Net、MDX23C 和 Demucs)的支持,引领这一领域。 这个终极人声去除器教程介绍了所有三个主要平台上的人声去除设置、模型选择策略、批处理工作流程、人工智能音频分离配置以及与 RVC 和 GPT-SoVITS 等工具的集成。 无论您是比较 Voice Reminder 与 demucs 还是寻找完整的 uvr 指南,本文都涵盖了从开始到结束的生产就绪部署。
- MDX-Net — Kuielab 的多频段深度神经网络
- MDX23C — 具有更大上下文窗口的扩展 MDX-Net
- Demucs v3/v4 — Facebook Research 的混合频谱图波形模型 该应用程序为人声和乐器输出单独的 WAV 文件,并在使用 4 杆模型时为鼓、贝斯和“其他”杆提供附加选项。 ## UVR 的工作原理 — 架构概述 UVR 不实现单一的整体模型。 相反,它充当模型编排层,在统一接口后面加载和运行不同的基于 PyTorch 的分离引擎。
输入音频(MP3/WAV/FLAC) | v [FFmpeg 解码器] → WAV PCM | v 【型号选择】 |-- VR-Net → 频谱图掩蔽 |-- MDX-Net → 多频带估计 |-- MDX23C → 扩展上下文模型 |-- Demucs → 混合波形+规格 | v [后处理] → WAV 输出 |-- 人声.wav |-- 器乐.wav每个模型处理音频的方式都不同: VR 架构 将音频转换为短时傅里叶变换 (STFT) 频谱图,应用学习的掩模来分离声音频率,并通过逆 STFT 重建波形。 这种方法速度很快,但可能会在乐器音轨中留下人声伪影。 MDX-Net 将频谱图分成多个频段,并通过单独的神经网络分支处理每个频段。 多频段设计捕捉到了单频段遮罩所遗漏的人声谐波结构。 Demucs 同时对原始波形和频谱图表示进行操作。 混合方法比仅频谱图的方法更好地保留相位信息,以更高的计算要求为代价产生更清晰的分离。 所有模型都通过 ONNX Runtime 或 PyTorch 运行,并通过 CUDA (Nvidia)、MPS (Apple Silicon) 或 DirectML (AMD/Intel) 提供可选 GPU 加速。 ## 安装和设置 ### Windows 安装(推荐) UVR v5.6 提供适用于 Windows 10 及更高版本的独立安装程序。 无需安装 Python 或依赖项。 第 1 步:下载安装程序 ```` powershel l
64 位 Windows(支持 Nvidia GPU 的 CUDA) #
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe # 对于 AMD Radeon / Intel Arc GPU,使用 DirectML 构建: #
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_1_15_25_22_30_BETA_full.exe #
**步骤 2:安装到 C:\ 驱动器**
powershel
l
重要提示:仅安装到 C:\ 驱动器。 # 安装到辅助驱动器会导致运行时不稳定。 # 以管理员身份运行安装程序 #
.\UVR_v5.6.0_setup.exe
**第 3 步:启动并下载模型** 首次启动时,UVR 会自动下载模型权重。 典型下载量为 6GB–12GB,具体取决于您选择的型号。 将模型存储在 SSD 上——模型加载时间是 HDD 的瓶颈。 **系统要求 — Windows:**
yam
l
操作系统:Windows 10 64 位或更高版本
CPU:Intel/AMD 64位(不支持Pentium/Celeron)
RAM:最低 8GB,建议 16GB
GPU:Nvidia GTX 1060 6GB 最低,RTX 3060 8GB+ 推荐
存储:15GB可用空间(强烈推荐SSD)
注意:不支持 Intel Pentium 和 Celeron CPU
### macOS 安装 UVR 在 Intel 和 Apple Silicon Mac 上支持 macOS Big Sur 及更高版本。
bas
h
第 1 步:下载适合您的架构的 DMG #
苹果芯片 (M1/M2/M3): #
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_arm64.dmg # 英特尔 Mac: #
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/Ultimate_Vocal_Remover_v5_6_MacOS_x86_64.dmg # 步骤 2:安装 DMG 并将 UVR 拖至应用程序 # 步骤 3:绕过 Gatekeeper(仅限首次启动) #
sudo spctl –master-disable
sudo xattr -rd com.apple.quarantine“/Applications/Ultimate Vocal Remover.app” # 第四步:UVR开启成功后重新启用Gatekeeper
sudo spctl –主控启用
**手动安装(macOS):**
bas
h
对于喜欢从源代码运行的开发人员 #
酿造安装python@3.10 ffmpeg pip3 install -r 要求.txt # 仅限 Apple Silicon — 修复声音文件库 cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib \ /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib # 下载 FFmpeg 二进制文件并放在应用程序目录中
下载橡皮筋以实现时间拉伸/音高转换功能 #
python3 UVR.py
由于 Python 在后台编译依赖项,因此在 macOS 上首次启动可能需要 5-10 分钟。 ### Linux 安装 Linux安装使用虚拟环境将UVR的依赖项与系统Python包隔离。 **基于 Debian 的系统(Ubuntu、Mint、Pop!_OS):**
bas
h
第1步:安装系统依赖项 #
sudo apt 更新 && sudo apt 升级 -y
sudo apt-get install -y ffmpeg python3-pip python3-tk python3-venv # 第 2 步:克隆存储库
git 克隆 https://github.com/Anjok07/ultimatevocalremovergui.git
CD UltimateVocalRemoverGUI # 第三步:创建并激活虚拟环境
python3 -m venv venv
源 venv/bin/activate # 第四步:安装Python依赖项
pip install -r 要求.txt # 步骤 5:运行 UVR
蟒蛇UVR.py
**基于 Arch 的系统(EndeavourOS、Manjaro):**
bas
h
sudo pacman-Syu
sudo pacman -S ffmpeg python-pip tk python-virtualenv git 克隆 https://github.com/Anjok07/ultimatevocalremovergui.git
CD UltimateVocalRemoverGUI
python3 -m venv venv
源 venv/bin/activate
pip install -r 要求.txt
蟒蛇UVR.py
```` 无头/服务器部署(Docker): ```
dockerfil
e
用于 UVR 无头处理的 Dockerfile #
来自 nvidia/cuda:12.1-runtime-ubuntu22.04 运行 apt-get update && apt-get install -y \ python3.10 python3-pip python3-venv ffmpeg \ git wget && rm -rf /var/lib/apt/lists/* 工作目录/应用程序 运行 git clone https://github.com/Anjok07/ultimatevocalremovergui.git 。 运行 python3 -m venv venv 跑。 venv/bin/activate && pip install -r requests.txt # 预下载模型以避免运行时下载 跑。 venv/bin/activate && python -c " 导入wget 导入操作系统 os.makedirs(‘模型’,exist_ok = True)
首次使用时自动下载模型 #
” ENTRYPOINT [“venv/bin/python”,“separate.py”]
bas
h
构建并运行 #
docker build -t uvr-gpu 。 docker run –gpus all -v $(pwd)/输入:/输入 -v $(pwd)/输出:/输出 uvr-gpu \ –输入/输入/歌曲.mp3 –输出/输出 –模型 MDX-Net
###requirements.txt 关键依赖项文本
替代图==0.17.3
audioread==3.0.0
einops==0.6.0
julius==0.2.7
librosa==0.9.2
matchering==2.0.6
omegaconf==2.2.3
opencv-python==4.6.0.66
psutil==5.9.4
pydub==0.25.1
吡咯带==0.3.0
pytorch_lightning==2.0.0
重新采样==0.4.2
scipy==1.9.3
火炬
运行时
Onnx运行时GPU
numpy==1.23.5
|
💬 留言讨论