VoiceCraft: 8.5K+ Stars

VoiceCraft is a token infilling neural codec language model for zero-shot speech editing and TTS. Compatible with GPT-SoVITS, Coqui TTS, and RVC. Covers setup, benchmarks, Docker deployment, and comparison tables.

  • MIT
  • 更新于 2026-05-19

{{< 资源信息 >}} ## 介绍 过去,编辑语音音频意味着在录音室重新录制整个片段。 如果播客讲错了一个单词,或者有声读物叙述者念错了某个名字,修复方法包括预订另一个会话、设置麦克风并匹配原始音调。 该工作流程既昂贵又缓慢。 2024 年,来自 UT Austin 和 Meta FAIR 的研究团队发布了 VoiceCraft,这是一种神经编解码器语言模型,可以编辑语音并从几秒钟的参考音频中克隆声音。 该存储库目前拥有 8,500 多个 GitHub star,有 796 个分支,该论文已在 ACL 2024 上被接受。 本指南将介绍 VoiceCraft 设置,将其与 GPT-SoVITS、XTTS v2 和 Coqui TTS 进行比较,并展示使用 Docker 的生产部署模式。 ## 什么是 VoiceCraft? VoiceCraft 是一种令牌填充神经编解码器语言模型,它执行两项核心任务:(1) 零样本文本到语音 (TTS) 语音克隆和 (2) 现有录音中的语音编辑。 与每个说话者需要数小时训练数据的传统 TTS 管道不同,VoiceCraft 只需 3-5 秒的参考音频即可以高保true度再现语音。 它建立在 Transformer 解码器架构之上,并引入了一种新颖的令牌重排程序,将因果屏蔽与延迟堆栈相结合,从而实现基于双向上下文的自回归生成。

VoiceCraft 概述
图 1:VoiceCraft 架构概述 — 使用因果屏蔽和延迟堆叠进行标记填充,用于语音编辑和 TTS。 ## VoiceCraft 的工作原理 ### 架构概述 模型管道分为三个阶段: 1. 编码解码器量化:使用 Meta 的 EnCodec 神经编解码器将原始音频波形量化为离散标记。 每个音频帧都表示为 K 个码本索引的向量(残余向量量化,RVQ)。 2. 代币重新排列:这是VoiceCraft的核心创新。 两步过程将编辑/填充问题转换为标准的从左到右的语言建模任务: - 因果屏蔽:标记的随机跨度被屏蔽并移动到序列的末尾,允许模型在自回归生成期间关注双向上下文。 - 延迟堆叠:向量对角移动,以便在码本 k-1 上预测时间 t 条件下的码本 k,从而实现高效的多码本建模。 3. Transformer Decoder:重新排列的令牌序列由 Transformer 解码器进行自回归建模。 文本音素和语音标记连接起来作为条件输入。 ### 型号变体 | 型号| 参数| 最适合 | 最长持续时间 | |

📦 出现在以下合集中

💬 留言讨论