What is the difference between htdemucs and htdemucs_ft?

htdemucs_ft is fine-tuned per source with extra training data and the shift trick enabled by default, achieving about 0.7 dB higher SDR (7.8 dB vs 7.1 dB on MUSDB18-HQ). The tradeoff is that it runs roughly 4x slower and uses about 50% more VRAM (~7.8 GB vs ~5.2 GB).

What hardware do I need to run Demucs?

Demucs runs on CPU but an NVIDIA GPU with 6+ GB VRAM is strongly recommended; htdemucs needs about 5.2 GB and htdemucs_ft about 8 GB. A 4-minute song separates in under a minute on GPU versus 5 to 20 minutes on CPU-only.

Can I use Demucs commercially?

Yes. Demucs is MIT-licensed, which permits commercial use, modification, and distribution without restrictions, and separated stems can be used in commercial productions. The license covers the code and models only, not the copyright of the music you process.

Is Demucs still maintained?

The original facebookresearch/demucs repository was archived by Meta on January 1, 2025, but original author Alexandre Defossez maintains an active fork at adefossez/demucs. The latest stable release is v4.1.0.

How do I separate just the vocals from a song with Demucs?

Run demucs --two-stems=vocals song.mp3, which outputs an isolated vocals track plus an instrumental made by mixing drums, bass, and other. A 4-minute song processes in under 30 seconds on GPU, making it ideal for karaoke track generation.

Demucs：音乐源分离，超过1万颗星 — 2026年与UVR、Spleeter的比较

{{< 资源信息 >}} 将混合歌曲分成单独的乐器轨道（人声、鼓、贝斯等）过去需要原始的多轨工作室文件。当深度学习模型学会“分解”完成的音频时，情况发生了变化。如今，音乐家、制作人和开发人员使用这些工具进行卡拉 OK 创作、样本隔离、混音准备和语音转换管道。在开源选项中，有一个模型主导了讨论：Demucs，Meta 的混合 Transformer 架构，拥有超过 10,000 个 GitHub star 和 MUSDB18-HQ 数据集上排名最高的基准。本指南将介绍 Demucs 是什么、它的工作原理、如何在本地安装、它与 Spleeter 和 Ultimate Vocal Remover 的比较，以及如何将其集成到实际的制作工作流程中。 ## 什么是 Demucs？ Demucs（Deep Extractor for Music Sources）是 Meta AI Research 开发的开源音乐源分离模型。它采用立体声音频混合物作为输入，输出独立的“主干”——通常是人声、鼓、贝斯和包含吉他、键盘和其他乐器的包罗万象的“其他”轨道。该项目位于 GitHub 上的“facebookresearch/demucs”，已积累超过 10,100 个 star 和 1,500 个 fork。该存储库已于 2025 年 1 月 1 日由 Meta 存档，但原作者 Alexandre Defossez 在“adefossez/demucs”上维护着一个活跃的分叉。最新的稳定版本是v4.1.0，整个项目是MIT许可的。 Democs 与早期工具的区别在于其混合方法：它同时在时域（原始波形）和频域（频谱图）中处理音频，然后融合两种表示形式。这种双域处理保留了纯频谱图方法丢失的相位信息，从而实现更清晰的分离，并减少金属伪影。 ## Democs 的工作原理 ### 架构概述当前一代 Democs——正式名称为 Hybrid Transformer Demucs (HTDemucs)——构建在 U-Net 卷积主干上，并通过 Transformer 层进行了增强。该架构分三个概念阶段运行： 1. 编码器：输入波形同时经过时域编码器（1D 卷积）和频域编码器（STFT 后跟 2D 卷积）。这种双重编码捕获细粒度的时间细节和谐波频率结构。 2. Transformer 瓶颈：U-Net 的最深层使用跨域 Transformer 编码器，每个域内具有自注意力，跨域具有交叉注意力。这种机制模拟了长程依赖关系，这对于将跨越多个小节的声乐旋律与类似音高的吉他线分开至关重要。 3. 解码器：单独的解码器重建两个域中的每个源（鼓、贝司、其他、人声），并且融合层将输出组合成最终的分离波形。

### 可用型号 Democs 附带多个针对不同速度/质量权衡进行优化的预训练模型： | 型号| 茎| 显存 | 特别提款权（MUSDB）| 使用案例| |

🔗 相关资源推荐

💬 留言讨论