{{< 资源信息 >}} ＃＃介绍过去，编辑语音音频意味着在录音室重新录制整个片段。如果播客讲错了一个单词，或者有声读物叙述者念错了某个名字，修复方法包括预订另一个会话、设置麦克风并匹配原始音调。该工作流程既昂贵又缓慢。 2024 年，来自 UT Austin 和 Meta FAIR 的研究团队发布了 VoiceCraft，这是一种神经编解码器语言模型，可以编辑语音并从几秒钟的参考音频中克隆声音。该存储库目前拥有 8,500 多个 GitHub star，有 796 个分支，该论文已在 ACL 2024 上被接受。本指南将介绍 VoiceCraft 设置，将其与 GPT-SoVITS、XTTS v2 和 Coqui TTS 进行比较，并展示使用 Docker 的生产部署模式。 ## 什么是 VoiceCraft？ VoiceCraft 是一种令牌填充神经编解码器语言模型，它执行两项核心任务：(1) 零样本文本到语音 (TTS) 语音克隆和 (2) 现有录音中的语音编辑。与每个说话者需要数小时训练数据的传统 TTS 管道不同，VoiceCraft 只需 3-5 秒的参考音频即可以高保true度再现语音。它建立在 Transformer 解码器架构之上，并引入了一种新颖的令牌重排程序，将因果屏蔽与延迟堆栈相结合，从而实现基于双向上下文的自回归生成。

图 1：VoiceCraft 架构概述 — 使用因果屏蔽和延迟堆叠进行标记填充，用于语音编辑和 TTS。 ## VoiceCraft 的工作原理 ### 架构概述模型管道分为三个阶段： 1. 编码解码器量化：使用 Meta 的 EnCodec 神经编解码器将原始音频波形量化为离散标记。每个音频帧都表示为 K 个码本索引的向量（残余向量量化，RVQ）。 2. 代币重新排列：这是VoiceCraft的核心创新。两步过程将编辑/填充问题转换为标准的从左到右的语言建模任务： - 因果屏蔽：标记的随机跨度被屏蔽并移动到序列的末尾，允许模型在自回归生成期间关注双向上下文。 - 延迟堆叠：向量对角移动，以便在码本 k-1 上预测时间 t 条件下的码本 k，从而实现高效的多码本建模。 3. Transformer Decoder：重新排列的令牌序列由 Transformer 解码器进行自回归建模。文本音素和语音标记连接起来作为条件输入。 ### 型号变体 | 型号| 参数| 最适合 | 最长持续时间 | |

VoiceCraft: 8.5K+ Stars

📦 出现在以下合集中

💬 留言讨论

🔗 相关资源推荐

📦 出现在以下合集中

💬 留言讨论