VoiceBox:开源AI语音工作室,用于克隆、听写和生成

一个全栈开源AI语音工作室,让您克隆任意语音、生成语音并听写到任何应用。33K stars。在您的机器上本地运行,支持CUDA或Apple Silicon。

  • 更新于 2026-06-25

VoiceBox:开源AI语音工作室 #

VoiceBox 是一个全面的开源AI语音工作室,支持语音克隆、语音生成和听写——全部在您的机器上本地运行。凭借 33,745 个 GitHub Stars 和活跃的开发者社区,它已成为开发人员、内容创作者和注重隐私的用户的首选解决方案,无需依赖云API即可获得强大的语音AI能力。

本文涵盖安装、语音克隆、听写模式、API使用、硬件需求和实际应用。

TL;DR #

VoiceBox 提供一个完全在您的硬件上运行的完整语音AI堆栈。它支持从仅3秒音频开始的声音克隆、实时听写到任何应用程序,以及高质量的文本转语音生成。支持NVIDIA CUDA和Apple Silicon(MLX),它根据您的硬件进行调整同时保持隐私——您的语音数据永远不会离开您的机器。

什么是VoiceBox? #

VoiceBox 是一个自托管的语音AI平台,将几种尖端技术整合到一个统一界面中。与需要将音频上传到云端的商业语音服务不同,VoiceBox 在本地处理所有内容,让您完全控制自己的语音数据。

该平台支持三种主要操作模式:

  • 语音克隆:录制或上传简短音频样本,创建可在该声音中生成语音的数字语音模型
  • 听写:使用麦克风将文本听写到系统中的任何应用程序,支持实时转录
  • 文本转语音:使用克隆语音或内置语音模型从文本生成自然语音

VoiceBox 建立在现代开源模型之上,包括Qwen3-TTS、Whisper和各种语音克隆架构,以零成本提供企业级语音AI能力。

安装指南 #

前置条件 #

VoiceBox 支持多种硬件配置:

GPU加速(推荐):

  • 8GB+显存的NVIDIA GPU(RTX 3060或更好)
  • 已安装CUDA 12.x工具包
  • 16GB系统内存
  • Linux(Ubuntu 22.04+)或Windows 11

Apple Silicon:

  • 16GB+统一内存的M1/M2/M3芯片
  • macOS 14+(Sonoma或更新版本)
  • 已安装MLX框架

纯CPU(较慢但可用):

  • 16GB+系统内存
  • 8+ CPU核心
  • 任何现代操作系统

选项一:使用Pip快速安装 #

# 从PyPI安装VoiceBox
pip install voicebox-ai

# 验证安装
voicebox --version

# 初始化应用程序
voicebox init --model qwen3-tts

选项二:从源代码安装(最新功能) #

# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 创建虚拟环境
python -m venv .venv
source .venv/bin/activate

# 安装依赖
pip install -r requirements.txt

# 以开发模式安装包
pip install -e .

# 下载默认语音模型
voicebox download-models --all

选项三:Docker部署 #

# 拉取官方镜像
docker pull jamiepine/voicebox:latest

# 使用GPU支持运行(NVIDIA)
docker run -d \
  --name voicebox \
  --gpus all \
  -p 8000:8000 \
  -v ${HOME}/voicebox-data:/data \
  -e VOICEBOX_MODEL=qwen3-tts \
  jamiepine/voicebox:latest

# 在Apple Silicon上运行(不需要GPU标志)
docker run -d \
  --name voicebox \
  -p 8000:8000 \
  -v ${HOME}/voicebox-data:/data \
  -e VOICEBOX_MODEL=qwen3-tts \
  jamiepine/voicebox:latest

选项四:Windows安装 #

# 从Microsoft Store安装Python 3.11+
# 然后安装VoiceBox
pip install voicebox-ai

# 如需GPU加速,安装CUDA工具包
# 从以下地址下载:https://developer.nvidia.com/cuda-downloads

# 初始化VoiceBox
voicebox init --gpu cuda

语音克隆 #

录制语音样本 #

要克隆语音,您需要至少3秒的清晰音频。为获得最佳效果,请提供30-60秒的语音:

# 使用内置录音机录制音频
voicebox record --output sample.wav --duration 30

# 或上传现有音频文件
voicebox clone --audio my_voice_sample.mp3 --name "my-voice"

# VoiceBox自动处理音频并提取语音特征

语音处理管道 #

语音克隆管道包含几个阶段:

from voicebox.engine import VoiceCloner
from voicebox.audio import AudioProcessor

# 初始化克隆器
cloner = VoiceCloner(model="qwen3-tts-voice-clone")

# 加载和预处理参考音频
processor = AudioProcessor()
reference = processor.load_audio("sample.wav")
reference = processor.normalize(reference, target_rms=-20)
reference = processor.remove_noise(reference, method="spectral")

# 提取语音嵌入
embeddings = cloner.extract_embeddings(reference)

# 创建语音模型
voice_model = cloner.create_voice(
    embeddings=embeddings,
    name="my-voice",
    quality="high"
)

# 测试克隆语音
output = voice_model.synthesize(
    text="你好,这是我的克隆语音。",
    speed=1.0,
    emotion="neutral"
)
voice_model.save(output, "test_output.wav")

高级语音参数 #

VoiceBox 提供对语音合成的细粒度控制:

# 控制语速
voicebox synthesize --input script.txt --output speech.wav --speed 0.8

# 添加情感语调
voicebox synthesize --input script.txt --output emotional.wav --emotion happy

# 调整音调
voicebox synthesize --input script.txt --output pitched.wav --pitch +200

# 组合多个参数
voicebox synthesize \
  --input script.txt \
  --output natural.wav \
  --speed 1.1 \
  --pitch +100 \
  --emotion confident \
  --clarity high

多语音支持 #

您可以同时创建和管理多个语音克隆:

from voicebox.engine import VoiceManager

manager = VoiceManager()

# 列出所有克隆语音
voices = manager.list_voices()
for v in voices:
    print(f"{v.name}: {v.quality}{v.duration}s训练数据)")

# 切换语音
manager.set_active_voice("my-voice")
output = manager.synthesize("你好,来自我的克隆语音!")

# 混合两个语音生成混合语音
hybrid = manager.blend_voices(
    voice_a="my-voice",
    voice_b="partner-voice",
    weight_a=0.7,
    weight_b=0.3
)
output = hybrid.synthesize("混合语音输出")

听写模式 #

VoiceBox的听写模式提供实时语音到文本转录,可与系统中的任何应用程序配合使用。

系统级听写设置 #

# 启用系统级听写
voicebox dictation --enable

# 选择识别模型
voicebox dictation --model whisper-large-v3

# 设置输出语言
voicebox dictation --language en

# 配置热键
voicebox dictation --hotkey "ctrl+space"

听写API使用 #

from voicebox.dictation import DictationEngine

# 初始化听写引擎
engine = DictationEngine(
    model="whisper-large-v3",
    language="auto",
    beam_size=5,
    vad_threshold=0.5
)

# 开始监听
engine.start_listening(
    hotkey="ctrl+shift+d",
    output_mode="clipboard",
    append_mode=True
)

# 处理听写会话
result = await engine.listen_session(
    timeout=300,           # 5分钟会话
    silence_threshold=1.5, # 1.5秒静音后停止
    language="en"
)

print(f"转录: {result.text}")
print(f"置信度: {result.confidence:.2%}")
print(f"字数: {result.word_count}")

多语言听写 #

VoiceBox 支持同时多语言听写,具有自动语言检测功能:

# 启用自动检测
voicebox dictation --auto-detect

# 指定支持的语言
voicebox dictation --languages en,zh,ko,ja,es,fr,de

# 设置首选语言(提高准确性)
voicebox dictation --primary-language en

文本转语音API #

VoiceBox 提供完整的REST API用于程序化文本转语音生成:

基本TTS #

# 简单文本转语音转换
curl -X POST "https://your-voicebox/api/v1/tts" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "你好,这是VoiceBox文本转语音测试。",
    "voice": "default",
    "speed": 1.0,
    "output_format": "wav"
  }' \
  --output speech.wav

流式TTS #

用于实时音频流应用:

# 分块流式传输音频
curl -N -X POST "https://your-voicebox/api/v1/tts/stream" \
  -H "Content-Type: application/json" \
  -d '{"text": "此音频将实时流式传输...", "voice": "cloned-voice"}' \
  --output - | aplay

批处理 #

同时处理多个文本:

from voicebox.api import VoiceBoxClient

client = VoiceBoxClient("https://your-voicebox")

texts = [
    "第一条待处理句子。",
    "第二条不同内容句子。",
    "第三条另一语音的句子。",
]

results = await client.tts.batch(
    texts=texts,
    voice="default",
    output_format="mp3",
    parallel_workers=4
)

for i, result in enumerate(results):
    print(f"已生成: speech_{i}.mp3({result.duration:.1f}秒)")

硬件需求与性能 #

GPU性能基准 #

硬件模型克隆时间TTS速度听写延迟
RTX 4090Qwen3-TTS15秒3倍实时< 50毫秒
RTX 3060Qwen3-TTS45秒2倍实时< 80毫秒
M3 MaxQwen3-TTS30秒2.5倍实时< 60毫秒
M2 BaseQwen3-TTS90秒1.2倍实时< 150毫秒
纯CPUQwen3-TTS5分钟0.3倍实时< 500毫秒

内存需求 #

操作最低推荐
基本TTS4GB RAM8GB RAM
语音克隆8GB RAM16GB RAM
听写4GB RAM8GB RAM
多语音12GB RAM32GB RAM

对比:VoiceBox vs 商业替代品 #

功能VoiceBoxElevenLabsAmazon PollyGoogle TTS
价格免费$5-50/月$4/百万字符$4/百万字符
语音克隆是(3秒样本)是(高级)
本地处理
开源
自定义语音无限5(入门)11
情感控制部分
实时
API访问完整RESTRESTSDKSDK
多语言30+30+40+20+
隐私完全云端云端云端

集成示例 #

Python库集成 #

import voicebox

# 快速TTS
result = voicebox.synthesize(
    text="你好,来自VoiceBox!",
    voice="default",
    output_file="hello.wav"
)

# 从音频文件克隆语音
cloned = voicebox.clone_voice(
    audio_file="sample.wav",
    voice_name="my-voice"
)

# 听写到剪贴板
voicebox.start_dictation(
    hotkey="cmd+space",
    target_app="any"
)

命令行集成 #

# 从文本文件生成音频
voicebox tts --file script.txt --output narration.wav

# 从播客剧集克隆语音
voicebox clone --audio podcast_ep1.mp3 --name "podcaster"

# 将文本转换为多种语言
for lang in en zh ko vi; do
  voicebox tts --text "Hello world" --lang $lang --output greeting_$lang.wav
done

# 批量处理目录中的文本文件
voicebox tts-batch --input ./scripts/ --output ./audio/ --voice default

Web界面 #

VoiceBox 包含一个内置Web界面,可通过 http://localhost:8000 访问:

  • 上传音频文件进行语音克隆
  • 输入或粘贴文本进行TTS生成
  • 配置听写热键和语言
  • 监控系统资源使用情况
  • 导出和管理语音模型

高级用例 #

播客制作 #

使用VoiceBox克隆您自己的声音并以多种语言生成内容:

# 从现有播客剧集克隆您的语音
voicebox clone --audio ~/podcasts/episodes/*.mp3 --name "my-podcast-voice"

# 生成英文版
voicebox tts --file article_en.txt --voice "my-podcast-voice" --output podcast_en.wav

# 生成中文版(需要先翻译)
voicebox tts --file article_zh.txt --voice "my-podcast-voice" --output podcast_zh.wav

# 生成韩文版
voicebox tts --file article_ko.txt --voice "my-podcast-voice" --output podcast_ko.wav

无障碍应用 #

VoiceBox可以帮助言语障碍用户通过克隆他们原始声音进行交流:

# 录制几秒自然语音
voicebox record --output baseline.wav --duration 10

# 克隆语音
voicebox clone --audio baseline.wav --name "accessible-voice"

# 使用克隆语音进行文本转语音
voicebox tts --text "我想要一杯水" --voice "accessible-voice" --output response.wav

内容创作 #

为视频、演示文稿和社交媒体内容生成配音:

# 为视频脚本生成配音
voicebox tts \
  --file video_script.txt \
  --voice "professional-narrator" \
  --speed 1.05 \
  --emotion engaging \
  --output voiceover.wav

# 添加背景音乐混音
ffmpeg -i voiceover.wav -i background_music.mp3 \
  -filter_complex "[0:a][1:a]amix=inputs=2:duration=first" \
  -output final_video_audio.mp3

局限性 #

  • 语音质量取决于训练数据:嘈杂或短暂的录音产生较低质量的克隆
  • GPU推荐用于实时使用:纯CPU模式可用但显著更慢
  • 不是专业配音的替代品:虽然令人印象深刻,合成语音缺乏专业表演者的细微差别
  • 法律考虑:确保您有权克隆您使用的任何语音,在某些司法管辖区甚至包括您自己的语音
  • 模型更新:新语音模型可能需要重新克隆现有语音以获得最佳质量

入门清单 #

# 1. 安装VoiceBox
pip install voicebox-ai

# 2. 使用默认模型初始化
voicebox init --model qwen3-tts

# 3. 下载语音模型
voicebox download-models --all

# 4. 测试基本TTS
echo "Hello World" | voicebox tts --output test.wav

# 5. 设置听写
voicebox dictation --enable --hotkey "ctrl+space"

# 6. 启动Web界面
voicebox web --port 8000

结论 #

VoiceBox通过提供完全在您的硬件上运行的完整开源语音工作室,使语音AI技术民主化。无论您需要内容创作的语音克隆、无障碍的听写还是应用的文本转语音,VoiceBox都以零成本提供专业级结果。

支持NVIDIA GPU和Apple Silicon、多语言能力和不断增长的分发生态系统,VoiceBox定位为商业语音AI平台的领先开源替代品。其活跃的开发周期确保新功能和改进定期发布。

来源 #

CTA #

立即通过访问GitHub仓库开始使用VoiceBox。对于GPU加速部署,考虑在HTStack上使用实惠的NVIDIA GPU实例,或使用DigitalOcean的托管云平台。

FAQ #

问:我需要多少音频来克隆语音? #

答:VoiceBox可以从低至3秒的清晰音频克隆语音,但为了获得最佳效果,请提供30-60秒的自然语音。训练数据越多,克隆语音的质量越高。

问:VoiceBox可以离线工作吗? #

答:是的。一旦模型下载完成,VoiceBox完全离线运行。不需要互联网连接即可进行语音克隆、文本转语音或听写模式。这使其成为隐私敏感应用的理想选择。

问:我可以在多个设备上使用VoiceBox吗? #

答:是的。语音模型存储为可在设备之间复制的文件。只需从一个设备导出克隆语音并在另一个设备上导入即可。Web界面和API支持多设备设置的远程访问。

问:VoiceBox支持哪些音频格式? #

答:VoiceBox支持的输入格式包括WAV、MP3、FLAC、OGG和AAC。输出可用WAV、MP3、FLAC和OGG格式。对于听写模式,接受任何麦克风输入格式。

问:我可以克隆多少个语音有没有限制? #

答:没有。VoiceBox对语音克隆数量没有限制。唯一的约束是可用存储空间和系统内存。每个语音模型通常需要500MB-2GB,具体取决于质量设置。

问:VoiceBox能处理口音和方言吗? #

答:可以。VoiceBox的模型在多样化的语音数据上训练,可以处理各种口音和方言。克隆语音时,系统会从训练音频中捕获口音特征。多语言支持扩展到每种语言内的区域变体。

📦 出现在以下合集中

💬 留言讨论