VoiceBox:开源AI语音工作室,用于克隆、听写和生成
一个全栈开源AI语音工作室,让您克隆任意语音、生成语音并听写到任何应用。33K stars。在您的机器上本地运行,支持CUDA或Apple Silicon。
- 更新于 2026-06-25
VoiceBox:开源AI语音工作室 #
VoiceBox 是一个全面的开源AI语音工作室,支持语音克隆、语音生成和听写——全部在您的机器上本地运行。凭借 33,745 个 GitHub Stars 和活跃的开发者社区,它已成为开发人员、内容创作者和注重隐私的用户的首选解决方案,无需依赖云API即可获得强大的语音AI能力。
本文涵盖安装、语音克隆、听写模式、API使用、硬件需求和实际应用。
TL;DR #
VoiceBox 提供一个完全在您的硬件上运行的完整语音AI堆栈。它支持从仅3秒音频开始的声音克隆、实时听写到任何应用程序,以及高质量的文本转语音生成。支持NVIDIA CUDA和Apple Silicon(MLX),它根据您的硬件进行调整同时保持隐私——您的语音数据永远不会离开您的机器。
什么是VoiceBox? #
VoiceBox 是一个自托管的语音AI平台,将几种尖端技术整合到一个统一界面中。与需要将音频上传到云端的商业语音服务不同,VoiceBox 在本地处理所有内容,让您完全控制自己的语音数据。
该平台支持三种主要操作模式:
- 语音克隆:录制或上传简短音频样本,创建可在该声音中生成语音的数字语音模型
- 听写:使用麦克风将文本听写到系统中的任何应用程序,支持实时转录
- 文本转语音:使用克隆语音或内置语音模型从文本生成自然语音
VoiceBox 建立在现代开源模型之上,包括Qwen3-TTS、Whisper和各种语音克隆架构,以零成本提供企业级语音AI能力。
安装指南 #
前置条件 #
VoiceBox 支持多种硬件配置:
GPU加速(推荐):
- 8GB+显存的NVIDIA GPU(RTX 3060或更好)
- 已安装CUDA 12.x工具包
- 16GB系统内存
- Linux(Ubuntu 22.04+)或Windows 11
Apple Silicon:
- 16GB+统一内存的M1/M2/M3芯片
- macOS 14+(Sonoma或更新版本)
- 已安装MLX框架
纯CPU(较慢但可用):
- 16GB+系统内存
- 8+ CPU核心
- 任何现代操作系统
选项一:使用Pip快速安装 #
# 从PyPI安装VoiceBox
pip install voicebox-ai
# 验证安装
voicebox --version
# 初始化应用程序
voicebox init --model qwen3-tts
选项二:从源代码安装(最新功能) #
# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 创建虚拟环境
python -m venv .venv
source .venv/bin/activate
# 安装依赖
pip install -r requirements.txt
# 以开发模式安装包
pip install -e .
# 下载默认语音模型
voicebox download-models --all
选项三:Docker部署 #
# 拉取官方镜像
docker pull jamiepine/voicebox:latest
# 使用GPU支持运行(NVIDIA)
docker run -d \
--name voicebox \
--gpus all \
-p 8000:8000 \
-v ${HOME}/voicebox-data:/data \
-e VOICEBOX_MODEL=qwen3-tts \
jamiepine/voicebox:latest
# 在Apple Silicon上运行(不需要GPU标志)
docker run -d \
--name voicebox \
-p 8000:8000 \
-v ${HOME}/voicebox-data:/data \
-e VOICEBOX_MODEL=qwen3-tts \
jamiepine/voicebox:latest
选项四:Windows安装 #
# 从Microsoft Store安装Python 3.11+
# 然后安装VoiceBox
pip install voicebox-ai
# 如需GPU加速,安装CUDA工具包
# 从以下地址下载:https://developer.nvidia.com/cuda-downloads
# 初始化VoiceBox
voicebox init --gpu cuda
语音克隆 #
录制语音样本 #
要克隆语音,您需要至少3秒的清晰音频。为获得最佳效果,请提供30-60秒的语音:
# 使用内置录音机录制音频
voicebox record --output sample.wav --duration 30
# 或上传现有音频文件
voicebox clone --audio my_voice_sample.mp3 --name "my-voice"
# VoiceBox自动处理音频并提取语音特征
语音处理管道 #
语音克隆管道包含几个阶段:
from voicebox.engine import VoiceCloner
from voicebox.audio import AudioProcessor
# 初始化克隆器
cloner = VoiceCloner(model="qwen3-tts-voice-clone")
# 加载和预处理参考音频
processor = AudioProcessor()
reference = processor.load_audio("sample.wav")
reference = processor.normalize(reference, target_rms=-20)
reference = processor.remove_noise(reference, method="spectral")
# 提取语音嵌入
embeddings = cloner.extract_embeddings(reference)
# 创建语音模型
voice_model = cloner.create_voice(
embeddings=embeddings,
name="my-voice",
quality="high"
)
# 测试克隆语音
output = voice_model.synthesize(
text="你好,这是我的克隆语音。",
speed=1.0,
emotion="neutral"
)
voice_model.save(output, "test_output.wav")
高级语音参数 #
VoiceBox 提供对语音合成的细粒度控制:
# 控制语速
voicebox synthesize --input script.txt --output speech.wav --speed 0.8
# 添加情感语调
voicebox synthesize --input script.txt --output emotional.wav --emotion happy
# 调整音调
voicebox synthesize --input script.txt --output pitched.wav --pitch +200
# 组合多个参数
voicebox synthesize \
--input script.txt \
--output natural.wav \
--speed 1.1 \
--pitch +100 \
--emotion confident \
--clarity high
多语音支持 #
您可以同时创建和管理多个语音克隆:
from voicebox.engine import VoiceManager
manager = VoiceManager()
# 列出所有克隆语音
voices = manager.list_voices()
for v in voices:
print(f"{v.name}: {v.quality}({v.duration}s训练数据)")
# 切换语音
manager.set_active_voice("my-voice")
output = manager.synthesize("你好,来自我的克隆语音!")
# 混合两个语音生成混合语音
hybrid = manager.blend_voices(
voice_a="my-voice",
voice_b="partner-voice",
weight_a=0.7,
weight_b=0.3
)
output = hybrid.synthesize("混合语音输出")
听写模式 #
VoiceBox的听写模式提供实时语音到文本转录,可与系统中的任何应用程序配合使用。
系统级听写设置 #
# 启用系统级听写
voicebox dictation --enable
# 选择识别模型
voicebox dictation --model whisper-large-v3
# 设置输出语言
voicebox dictation --language en
# 配置热键
voicebox dictation --hotkey "ctrl+space"
听写API使用 #
from voicebox.dictation import DictationEngine
# 初始化听写引擎
engine = DictationEngine(
model="whisper-large-v3",
language="auto",
beam_size=5,
vad_threshold=0.5
)
# 开始监听
engine.start_listening(
hotkey="ctrl+shift+d",
output_mode="clipboard",
append_mode=True
)
# 处理听写会话
result = await engine.listen_session(
timeout=300, # 5分钟会话
silence_threshold=1.5, # 1.5秒静音后停止
language="en"
)
print(f"转录: {result.text}")
print(f"置信度: {result.confidence:.2%}")
print(f"字数: {result.word_count}")
多语言听写 #
VoiceBox 支持同时多语言听写,具有自动语言检测功能:
# 启用自动检测
voicebox dictation --auto-detect
# 指定支持的语言
voicebox dictation --languages en,zh,ko,ja,es,fr,de
# 设置首选语言(提高准确性)
voicebox dictation --primary-language en
文本转语音API #
VoiceBox 提供完整的REST API用于程序化文本转语音生成:
基本TTS #
# 简单文本转语音转换
curl -X POST "https://your-voicebox/api/v1/tts" \
-H "Content-Type: application/json" \
-d '{
"text": "你好,这是VoiceBox文本转语音测试。",
"voice": "default",
"speed": 1.0,
"output_format": "wav"
}' \
--output speech.wav
流式TTS #
用于实时音频流应用:
# 分块流式传输音频
curl -N -X POST "https://your-voicebox/api/v1/tts/stream" \
-H "Content-Type: application/json" \
-d '{"text": "此音频将实时流式传输...", "voice": "cloned-voice"}' \
--output - | aplay
批处理 #
同时处理多个文本:
from voicebox.api import VoiceBoxClient
client = VoiceBoxClient("https://your-voicebox")
texts = [
"第一条待处理句子。",
"第二条不同内容句子。",
"第三条另一语音的句子。",
]
results = await client.tts.batch(
texts=texts,
voice="default",
output_format="mp3",
parallel_workers=4
)
for i, result in enumerate(results):
print(f"已生成: speech_{i}.mp3({result.duration:.1f}秒)")
硬件需求与性能 #
GPU性能基准 #
| 硬件 | 模型 | 克隆时间 | TTS速度 | 听写延迟 |
|---|---|---|---|---|
| RTX 4090 | Qwen3-TTS | 15秒 | 3倍实时 | < 50毫秒 |
| RTX 3060 | Qwen3-TTS | 45秒 | 2倍实时 | < 80毫秒 |
| M3 Max | Qwen3-TTS | 30秒 | 2.5倍实时 | < 60毫秒 |
| M2 Base | Qwen3-TTS | 90秒 | 1.2倍实时 | < 150毫秒 |
| 纯CPU | Qwen3-TTS | 5分钟 | 0.3倍实时 | < 500毫秒 |
内存需求 #
| 操作 | 最低 | 推荐 |
|---|---|---|
| 基本TTS | 4GB RAM | 8GB RAM |
| 语音克隆 | 8GB RAM | 16GB RAM |
| 听写 | 4GB RAM | 8GB RAM |
| 多语音 | 12GB RAM | 32GB RAM |
对比:VoiceBox vs 商业替代品 #
| 功能 | VoiceBox | ElevenLabs | Amazon Polly | Google TTS |
|---|---|---|---|---|
| 价格 | 免费 | $5-50/月 | $4/百万字符 | $4/百万字符 |
| 语音克隆 | 是(3秒样本) | 是(高级) | 否 | 否 |
| 本地处理 | 是 | 否 | 否 | 否 |
| 开源 | 是 | 否 | 否 | 否 |
| 自定义语音 | 无限 | 5(入门) | 1 | 1 |
| 情感控制 | 是 | 部分 | 否 | 否 |
| 实时 | 是 | 是 | 是 | 是 |
| API访问 | 完整REST | REST | SDK | SDK |
| 多语言 | 30+ | 30+ | 40+ | 20+ |
| 隐私 | 完全 | 云端 | 云端 | 云端 |
集成示例 #
Python库集成 #
import voicebox
# 快速TTS
result = voicebox.synthesize(
text="你好,来自VoiceBox!",
voice="default",
output_file="hello.wav"
)
# 从音频文件克隆语音
cloned = voicebox.clone_voice(
audio_file="sample.wav",
voice_name="my-voice"
)
# 听写到剪贴板
voicebox.start_dictation(
hotkey="cmd+space",
target_app="any"
)
命令行集成 #
# 从文本文件生成音频
voicebox tts --file script.txt --output narration.wav
# 从播客剧集克隆语音
voicebox clone --audio podcast_ep1.mp3 --name "podcaster"
# 将文本转换为多种语言
for lang in en zh ko vi; do
voicebox tts --text "Hello world" --lang $lang --output greeting_$lang.wav
done
# 批量处理目录中的文本文件
voicebox tts-batch --input ./scripts/ --output ./audio/ --voice default
Web界面 #
VoiceBox 包含一个内置Web界面,可通过 http://localhost:8000 访问:
- 上传音频文件进行语音克隆
- 输入或粘贴文本进行TTS生成
- 配置听写热键和语言
- 监控系统资源使用情况
- 导出和管理语音模型
高级用例 #
播客制作 #
使用VoiceBox克隆您自己的声音并以多种语言生成内容:
# 从现有播客剧集克隆您的语音
voicebox clone --audio ~/podcasts/episodes/*.mp3 --name "my-podcast-voice"
# 生成英文版
voicebox tts --file article_en.txt --voice "my-podcast-voice" --output podcast_en.wav
# 生成中文版(需要先翻译)
voicebox tts --file article_zh.txt --voice "my-podcast-voice" --output podcast_zh.wav
# 生成韩文版
voicebox tts --file article_ko.txt --voice "my-podcast-voice" --output podcast_ko.wav
无障碍应用 #
VoiceBox可以帮助言语障碍用户通过克隆他们原始声音进行交流:
# 录制几秒自然语音
voicebox record --output baseline.wav --duration 10
# 克隆语音
voicebox clone --audio baseline.wav --name "accessible-voice"
# 使用克隆语音进行文本转语音
voicebox tts --text "我想要一杯水" --voice "accessible-voice" --output response.wav
内容创作 #
为视频、演示文稿和社交媒体内容生成配音:
# 为视频脚本生成配音
voicebox tts \
--file video_script.txt \
--voice "professional-narrator" \
--speed 1.05 \
--emotion engaging \
--output voiceover.wav
# 添加背景音乐混音
ffmpeg -i voiceover.wav -i background_music.mp3 \
-filter_complex "[0:a][1:a]amix=inputs=2:duration=first" \
-output final_video_audio.mp3
局限性 #
- 语音质量取决于训练数据:嘈杂或短暂的录音产生较低质量的克隆
- GPU推荐用于实时使用:纯CPU模式可用但显著更慢
- 不是专业配音的替代品:虽然令人印象深刻,合成语音缺乏专业表演者的细微差别
- 法律考虑:确保您有权克隆您使用的任何语音,在某些司法管辖区甚至包括您自己的语音
- 模型更新:新语音模型可能需要重新克隆现有语音以获得最佳质量
入门清单 #
# 1. 安装VoiceBox
pip install voicebox-ai
# 2. 使用默认模型初始化
voicebox init --model qwen3-tts
# 3. 下载语音模型
voicebox download-models --all
# 4. 测试基本TTS
echo "Hello World" | voicebox tts --output test.wav
# 5. 设置听写
voicebox dictation --enable --hotkey "ctrl+space"
# 6. 启动Web界面
voicebox web --port 8000
结论 #
VoiceBox通过提供完全在您的硬件上运行的完整开源语音工作室,使语音AI技术民主化。无论您需要内容创作的语音克隆、无障碍的听写还是应用的文本转语音,VoiceBox都以零成本提供专业级结果。
支持NVIDIA GPU和Apple Silicon、多语言能力和不断增长的分发生态系统,VoiceBox定位为商业语音AI平台的领先开源替代品。其活跃的开发周期确保新功能和改进定期发布。
来源 #
CTA #
立即通过访问GitHub仓库开始使用VoiceBox。对于GPU加速部署,考虑在HTStack上使用实惠的NVIDIA GPU实例,或使用DigitalOcean的托管云平台。
FAQ #
问:我需要多少音频来克隆语音? #
答:VoiceBox可以从低至3秒的清晰音频克隆语音,但为了获得最佳效果,请提供30-60秒的自然语音。训练数据越多,克隆语音的质量越高。
问:VoiceBox可以离线工作吗? #
答:是的。一旦模型下载完成,VoiceBox完全离线运行。不需要互联网连接即可进行语音克隆、文本转语音或听写模式。这使其成为隐私敏感应用的理想选择。
问:我可以在多个设备上使用VoiceBox吗? #
答:是的。语音模型存储为可在设备之间复制的文件。只需从一个设备导出克隆语音并在另一个设备上导入即可。Web界面和API支持多设备设置的远程访问。
问:VoiceBox支持哪些音频格式? #
答:VoiceBox支持的输入格式包括WAV、MP3、FLAC、OGG和AAC。输出可用WAV、MP3、FLAC和OGG格式。对于听写模式,接受任何麦克风输入格式。
问:我可以克隆多少个语音有没有限制? #
答:没有。VoiceBox对语音克隆数量没有限制。唯一的约束是可用存储空间和系统内存。每个语音模型通常需要500MB-2GB,具体取决于质量设置。
问:VoiceBox能处理口音和方言吗? #
答:可以。VoiceBox的模型在多样化的语音数据上训练,可以处理各种口音和方言。克隆语音时,系统会从训练音频中捕获口音特征。多语言支持扩展到每种语言内的区域变体。
💬 留言讨论