VoiceCraft: 8.5K+ Stars
VoiceCraft is a token infilling neural codec language model for zero-shot speech editing and TTS. Compatible with GPT-SoVITS, Coqui TTS, and RVC. Covers setup, benchmarks, Docker deployment, and comparison tables.
- MIT
- 更新于 2026-05-19
{{< 资源信息 >}} ## 介绍 过去,编辑语音音频意味着在录音室重新录制整个片段。 如果播客讲错了一个单词,或者有声读物叙述者念错了某个名字,修复方法包括预订另一个会话、设置麦克风并匹配原始音调。 该工作流程既昂贵又缓慢。 2024 年,来自 UT Austin 和 Meta FAIR 的研究团队发布了 VoiceCraft,这是一种神经编解码器语言模型,可以编辑语音并从几秒钟的参考音频中克隆声音。 该存储库目前拥有 8,500 多个 GitHub star,有 796 个分支,该论文已在 ACL 2024 上被接受。 本指南将介绍 VoiceCraft 设置,将其与 GPT-SoVITS、XTTS v2 和 Coqui TTS 进行比较,并展示使用 Docker 的生产部署模式。 ## 什么是 VoiceCraft? VoiceCraft 是一种令牌填充神经编解码器语言模型,它执行两项核心任务:(1) 零样本文本到语音 (TTS) 语音克隆和 (2) 现有录音中的语音编辑。 与每个说话者需要数小时训练数据的传统 TTS 管道不同,VoiceCraft 只需 3-5 秒的参考音频即可以高保true度再现语音。 它建立在 Transformer 解码器架构之上,并引入了一种新颖的令牌重排程序,将因果屏蔽与延迟堆栈相结合,从而实现基于双向上下文的自回归生成。
💬 留言讨论