VoiceBox: Studio Giọng Nói AI Mã Nguồn Mở Để Nhân Bản, Chép Và Tạo Giọng

Một studio giọng nói AI mã nguồn mở toàn栈 cho phép bạn nhân bản mọi giọng, tạo giọng nói và chép vào bất kỳ ứng dụng nào. 33K sao. Chạy cục bộ trên máy của bạn với hỗ trợ CUDA hoặc Apple Silicon.

  • Cập nhật 2026-06-25

VoiceBox: Studio Giọng Nói AI Mã Nguồn Mở #

VoiceBox là một studio giọng nói AI mã nguồn mở toàn diện, cho phép nhân bản giọng nói, tạo giọng nói và chép văn bản — tất cả chạy cục bộ trên máy của bạn. Với 33.745 sao GitHub và cộng đồng phát triển sôi động, nó đã trở thành giải pháp được ưa chuộng cho nhà phát triển, người sáng tạo nội dung và người dùng chú trọng quyền riêng tư cần AI giọng nói mạnh mẽ mà không dựa vào API đám mây.

Bài viết này bao gồm hướng dẫn cài đặt, nhân bản giọng, chế độ chép, sử dụng API, yêu cầu phần cứng và ứng dụng thực tế.

TL;DR #

VoiceBox cung cấp một stack AI giọng nói hoàn chỉnh chạy hoàn toàn trên phần cứng của bạn. Nó hỗ trợ nhân bản giọng từ chỉ 3 giây âm thanh, chép văn bản thời gian thực vào bất kỳ ứng dụng nào, và tạo giọng nói chất lượng cao từ văn bản. Với hỗ trợ cả NVIDIA CUDA và Apple Silicon (MLX), nó thích nghi với phần cứng của bạn trong khi vẫn đảm bảo quyền riêng tư — dữ liệu giọng nói của bạn không bao giờ rời khỏi máy.

VoiceBox Là Gì? #

VoiceBox là một nền tảng AI giọng nói tự lưu trữ, kết hợp nhiều công nghệ tiên tiến vào một giao diện thống nhất. Khác với các dịch vụ giọng nói thương mại yêu cầu tải âm thanh lên đám mây, VoiceBox xử lý mọi thứ cục bộ, cho bạn kiểm soát hoàn toàn dữ liệu giọng nói của mình.

Nền tảng hỗ trợ ba chế độ hoạt động chính:

  • Nhân bản giọng: Ghi lại hoặc tải lên một mẫu âm thanh ngắn và tạo mô hình giọng nói kỹ thuật số có thể tạo giọng nói bằng giọng đó
  • Chép văn bản: Sử dụng microphone của bạn để chép văn bản vào bất kỳ ứng dụng nào trên hệ thống, với phiên âm thời gian thực
  • Chuyển văn bản thành giọng (TTS): Tạo giọng nói tự nhiên từ văn bản bằng giọng đã nhân bản hoặc mô hình giọng tích hợp

Được xây dựng dựa trên các mô hình mã nguồn mở hiện đại bao gồm Qwen3-TTS, Whisper và nhiều kiến trúc nhân bản giọng khác, VoiceBox cung cấp khả năng AI giọng nói cấp doanh nghiệp với chi phí bằng không.

Hướng Dẫn Cài Đặt #

Yêu Cầu Tiên Quyết #

VoiceBox hỗ trợ nhiều cấu hình phần cứng:

Tăng tốc GPU (Khuyến Nghị):

  • GPU NVIDIA với 8GB+ VRAM (RTX 3060 hoặc tốt hơn)
  • Đã cài đặt bộ công cụ CUDA 12.x
  • 16GB RAM hệ thống
  • Linux (Ubuntu 22.04+) hoặc Windows 11

Apple Silicon:

  • Chip M1/M2/M3 với 16GB+ bộ nhớ thống nhất
  • macOS 14+ (Sonoma hoặc mới hơn)
  • Đã cài đặt framework MLX

Chỉ CPU (Chậm hơn nhưng hoạt động):

  • 16GB+ RAM hệ thống
  • 8+ nhân CPU
  • Bất kỳ hệ điều hành hiện đại nào

Tùy Chọn 1: Cài Đặt Nhanh Với Pip #

# Cài đặt VoiceBox từ PyPI
pip install voicebox-ai

# Xác minh cài đặt
voicebox --version

# Khởi tạo ứng dụng
voicebox init --model qwen3-tts

Tùy Chọn 2: Từ Mã Nguồn (Tính Năng Mới Nhất) #

# Sao chép kho lưu trữ
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# Tạo môi trường ảo
python -m venv .venv
source .venv/bin/activate

# Cài đặt phụ thuộc
pip install -r requirements.txt

# Cài đặt gói ở chế độ phát triển
pip install -e .

# Tải xuống mô hình giọng nói mặc định
voicebox download-models --all

Tùy Chọn 3: Triển Khai Docker #

# Kéo hình ảnh chính thức
docker pull jamiepine/voicebox:latest

# Chạy với hỗ trợ GPU (NVIDIA)
docker run -d \
  --name voicebox \
  --gpus all \
  -p 8000:8000 \
  -v ${HOME}/voicebox-data:/data \
  -e VOICEBOX_MODEL=qwen3-tts \
  jamiepine/voicebox:latest

# Chạy trên Apple Silicon (không cần cờ GPU)
docker run -d \
  --name voicebox \
  -p 8000:8000 \
  -v ${HOME}/voicebox-data:/data \
  -e VOICEBOX_MODEL=qwen3-tts \
  jamiepine/voicebox:latest

Tùy Chọn 4: Cài Đặt Windows #

# Cài đặt Python 3.11+ từ Microsoft Store
# Sau đó cài đặt VoiceBox
pip install voicebox-ai

# Để tăng tốc GPU, cài đặt bộ công cụ CUDA
# Tải xuống tại: https://developer.nvidia.com/cuda-downloads

# Khởi tạo VoiceBox
voicebox init --gpu cuda

Nhân Bản Giọng Nói #

Ghi Mẫu Âm Thanh #

Để nhân bản giọng, bạn cần ít nhất 3 giây âm thanh rõ ràng. Để có kết quả tốt nhất, hãy cung cấp 30-60 giây giọng nói:

# Ghi âm thanh bằng trình ghi âm tích hợp
voicebox record --output sample.wav --duration 30

# Hoặc tải lên tệp âm thanh hiện có
voicebox clone --audio my_voice_sample.mp3 --name "my-voice"

# VoiceBox tự động xử lý âm thanh và trích xuất đặc điểm giọng

Pipeline Xử Lý Giọng Nói #

Pipeline nhân bản giọng bao gồm nhiều giai đoạn:

from voicebox.engine import VoiceCloner
from voicebox.audio import AudioProcessor

# Khởi tạo bộ nhân bản
cloner = VoiceCloner(model="qwen3-tts-voice-clone")

# Tải và tiền xử lý âm thanh tham chiếu
processor = AudioProcessor()
reference = processor.load_audio("sample.wav")
reference = processor.normalize(reference, target_rms=-20)
reference = processor.remove_noise(reference, method="spectral")

# Trích xuất embedding giọng
embeddings = cloner.extract_embeddings(reference)

# Tạo mô hình giọng
voice_model = cloner.create_voice(
    embeddings=embeddings,
    name="my-voice",
    quality="high"
)

# Kiểm tra giọng đã nhân bản
output = voice_model.synthesize(
    text="Xin chào, đây là giọng nói đã nhân bản của tôi.",
    speed=1.0,
    emotion="neutral"
)
voice_model.save(output, "test_output.wav")

Tham Số Giọng Nói Nâng Cao #

VoiceBox cung cấp kiểm soát chi tiết عن tổng hợp giọng nói:

# Kiểm soát tốc độ nói
voicebox synthesize --input script.txt --output speech.wav --speed 0.8

# Thêm sắc thái cảm xúc
voicebox synthesize --input script.txt --output emotional.wav --emotion happy

# Điều chỉnh pitch
voicebox synthesize --input script.txt --output pitched.wav --pitch +200

# Kết hợp nhiều tham số
voicebox synthesize \
  --input script.txt \
  --output natural.wav \
  --speed 1.1 \
  --pitch +100 \
  --emotion confident \
  --clarity high

Hỗ Trợ Đa Giọng #

Bạn có thể tạo và quản lý nhiều bản nhân bản giọng đồng thời:

from voicebox.engine import VoiceManager

manager = VoiceManager()

# Liệt kê tất cả giọng đã nhân bản
voices = manager.list_voices()
for v in voices:
    print(f"{v.name}: {v.quality} ({v.duration}s dữ liệu huấn luyện)")

# Chuyển đổi giữa các giọng
manager.set_active_voice("my-voice")
output = manager.synthesize("Xin chào từ giọng nhân bản của tôi!")

# Trộn hai giọng để tạo giọng lai
hybrid = manager.blend_voices(
    voice_a="my-voice",
    voice_b="partner-voice",
    weight_a=0.7,
    weight_b=0.3
)
output = hybrid.synthesize("Đầu ra giọng trộn")

Chế Độ Chép Văn Bản #

Chế độ chép của VoiceBox cung cấp phiên âm giọng-nói-thành-chữ thời gian thực hoạt động với mọi ứng dụng trên hệ thống của bạn.

Thiết Lập Chép Toàn Hệ Thống #

# Kích hoạt chép toàn hệ thống
voicebox dictation --enable

# Chọn mô hình nhận diện
voicebox dictation --model whisper-large-v3

# Đặt ngôn ngữ đầu ra
voicebox dictation --language en

# Cấu hình phím nóng
voicebox dictation --hotkey "ctrl+space"

Sử Dụng API Chép #

from voicebox.dictation import DictationEngine

# Khởi tạo engine chép
engine = DictationEngine(
    model="whisper-large-v3",
    language="auto",
    beam_size=5,
    vad_threshold=0.5
)

# Bắt đầu nghe
engine.start_listening(
    hotkey="ctrl+shift+d",
    output_mode="clipboard",
    append_mode=True
)

# Xử lý phiên chép
result = await engine.listen_session(
    timeout=300,           # Phiên 5 phút
    silence_threshold=1.5, # Dừng sau 1.5s im lặng
    language="en"
)

print(f"Đã phiên âm: {result.text}")
print(f"Độ tin cậy: {result.confidence:.2%}")
print(f"Số từ: {result.word_count}")

Chép Đa Ngôn Ngữ #

VoiceBox hỗ trợ chép đa ngôn ngữ đồng thời với phát hiện ngôn ngữ tự động:

# Kích hoạt phát hiện tự động
voicebox dictation --auto-detect

# Chỉ định ngôn ngữ hỗ trợ
voicebox dictation --languages en,zh,ko,ja,es,fr,de

# Đặt ngôn ngữ chính (để chính xác hơn)
voicebox dictation --primary-language en

API Chuyển Văn Bản Thành Giọng #

VoiceBox cung cấp REST API đầy đủ cho việc tạo chuyển văn bản thành giọng programmatically:

TTS Cơ Bản #

# Chuyển đổi văn bản thành giọng đơn giản
curl -X POST "https://your-voicebox/api/v1/tts" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Xin chào, đây là thử nghiệm chuyển văn bản thành giọng của VoiceBox.",
    "voice": "default",
    "speed": 1.0,
    "output_format": "wav"
  }' \
  --output speech.wav

TTS Trực Tiếp #

Dành cho ứng dụng phát âm thanh thời gian thực:

# Phát âm thanh theo chunk
curl -N -X POST "https://your-voicebox/api/v1/tts/stream" \
  -H "Content-Type: application/json" \
  -d '{"text": "Âm thanh này sẽ được phát trực tiếp...", "voice": "cloned-voice"}' \
  --output - | aplay

Xử Lý Hàng Loạt #

Xử lý nhiều văn bản đồng thời:

from voicebox.api import VoiceBoxClient

client = VoiceBoxClient("https://your-voicebox")

texts = [
    "Câu đầu tiên để xử lý.",
    "Câu thứ hai với nội dung khác.",
    "Câu thứ ba bằng giọng khác.",
]

results = await client.tts.batch(
    texts=texts,
    voice="default",
    output_format="mp3",
    parallel_workers=4
)

for i, result in enumerate(results):
    print(f"Đã tạo: speech_{i}.mp3 ({result.duration:.1f}s)")

Yêu Cầu Phần Cứng Và Hiệu Suất #

Benchmark Hiệu Suất GPU #

Phần CứngMô HìnhThời Gian Nhân BảnTốc Độ TTSĐộ Trễ Chép
RTX 4090Qwen3-TTS15 giây3x thời gian thực< 50ms
RTX 3060Qwen3-TTS45 giây2x thời gian thực< 80ms
M3 MaxQwen3-TTS30 giây2.5x thời gian thực< 60ms
M2 BaseQwen3-TTS90 giây1.2x thời gian thực< 150ms
Chỉ CPUQwen3-TTS5 phút0.3x thời gian thực< 500ms

Yêu Cầu Bộ Nhớ #

Thao TácTối ThiểuKhuyến Nghị
TTS Cơ Bản4GB RAM8GB RAM
Nhân Bản Giọng8GB RAM16GB RAM
Chép4GB RAM8GB RAM
Đa Giọng12GB RAM32GB RAM

So Sánh: VoiceBox vs Giải Pháp Thương Mại #

Tính NăngVoiceBoxElevenLabsAmazon PollyGoogle TTS
GiáMiễn phí$5-50/tháng$4/triệu ký tự$4/triệu ký tự
Nhân Bản GiọngCó (mẫu 3s)Có (cao cấp)KhôngKhông
Xử Lý Cục BộKhôngKhôngKhông
Mã Nguồn MởKhôngKhôngKhông
Giọng Tùy ChỉnhKhông giới hạn5 (starter)11
Kiểm Soát Cảm XúcMột phầnKhôngKhông
Thời Gian Thực
Truy Cập APIFull RESTRESTSDKSDK
Đa Ngôn Ngữ30+30+40+20+
Quyền Riêng TưToàn bộĐám mâyĐám mâyĐám mây

Ví Dụ Tích Hợp #

Tích Hợp Thư Viện Python #

import voicebox

# TTS nhanh
result = voicebox.synthesize(
    text="Xin chào từ VoiceBox!",
    voice="default",
    output_file="hello.wav"
)

# Nhân bản giọng từ tệp âm thanh
cloned = voicebox.clone_voice(
    audio_file="sample.wav",
    voice_name="my-voice"
)

# Chép vào clipboard
voicebox.start_dictation(
    hotkey="cmd+space",
    target_app="any"
)

Tích Hợp Dòng Lệnh #

# Tạo âm thanh từ tệp văn bản
voicebox tts --file script.txt --output narration.wav

# Nhân bản giọng từ tập podcast
voicebox clone --audio podcast_ep1.mp3 --name "podcaster"

# Chuyển văn bản sang nhiều ngôn ngữ
for lang in en zh ko vi; do
  voicebox tts --text "Hello world" --lang $lang --output greeting_$lang.wav
done

# Xử lý hàng loạt thư mục tệp văn bản
voicebox tts-batch --input ./scripts/ --output ./audio/ --voice default

Giao Diện Web #

VoiceBox bao gồm giao diện web tích hợp có thể truy cập tại http://localhost:8000:

  • Tải lên tệp âm thanh để nhân bản giọng
  • Gõ hoặc dán văn bản để tạo TTS
  • Cấu hình phím nóng và ngôn ngữ chép
  • Theo dõi mức sử dụng tài nguyên hệ thống
  • Xuất và quản lý mô hình giọng nói

Trường Hợp Sử Dụng Nâng Cao #

Sản Xuất Podcast #

Sử dụng VoiceBox để nhân bản giọng của chính bạn và tạo nội dung bằng nhiều ngôn ngữ:

# Nhân bản giọng từ các tập podcast hiện có
voicebox clone --audio ~/podcasts/episodes/*.mp3 --name "my-podcast-voice"

# Tạo phiên bản tiếng Anh
voicebox tts --file article_en.txt --voice "my-podcast-voice" --output podcast_en.wav

# Tạo phiên bản tiếng Trung (cần dịch trước)
voicebox tts --file article_zh.txt --voice "my-podcast-voice" --output podcast_zh.wav

# Tạo phiên bản tiếng Hàn
voicebox tts --file article_ko.txt --voice "my-podcast-voice" --output podcast_ko.wav

Ứng Dụng Khả Năng Tiếp Cận #

VoiceBox có thể giúp người dùng khó khăn về lời nói giao tiếp bằng cách nhân bản giọng gốc của họ:

# Ghi vài giây giọng nói tự nhiên
voicebox record --output baseline.wav --duration 10

# Nhân bản giọng
voicebox clone --audio baseline.wav --name "accessible-voice"

# Sử dụng giọng đã nhân bản cho TTS
voicebox tts --text "Tôi muốn nước vui lòng" --voice "accessible-voice" --output response.wav

Sáng Tạo Nội Dung #

Tạo lồng tiếng cho video, thuyết trình và nội dung mạng xã hội:

# Tạo lồng tiếng cho kịch bản video
voicebox tts \
  --file video_script.txt \
  --voice "professional-narrator" \
  --speed 1.05 \
  --emotion engaging \
  --output voiceover.wav

# Thêm nhạc nền
ffmpeg -i voiceover.wav -i background_music.mp3 \
  -filter_complex "[0:a][1:a]amix=inputs=2:duration=first" \
  -output final_video_audio.mp3

Hạn Chế #

  • Chất lượng giọng phụ thuộc vào dữ liệu huấn luyện: Bản ghi nhiễu hoặc ngắn tạo ra bản nhân bản chất lượng thấp
  • Khuyến nghị GPU cho sử dụng thời gian thực: Chế độ chỉ CPU hoạt động nhưng chậm hơn đáng kể
  • Không phải là sự thay thế cho diễn viên giọng chuyên nghiệp: Dù ấn tượng, giọng tổng hợp thiếu sự tinh tế của diễn viên chuyên nghiệp
  • Xem xét pháp lý: Đảm bảo bạn có quyền nhân bản bất kỳ giọng nào bạn sử dụng, bao gồm cả giọng của chính bạn ở một số khu vực pháp lý
  • Cập nhật mô hình: Mô hình giọng mới có thể yêu cầu nhân bản lại giọng hiện có để có chất lượng tối ưu

Danh Sách Kiểm Tra Bắt Đầu #

# 1. Cài đặt VoiceBox
pip install voicebox-ai

# 2. Khởi tạo với mô hình mặc định
voicebox init --model qwen3-tts

# 3. Tải xuống mô hình giọng
voicebox download-models --all

# 4. Thử TTS cơ bản
echo "Hello World" | voicebox tts --output test.wav

# 5. Thiết lập chép
voicebox dictation --enable --hotkey "ctrl+space"

# 6. Khởi động giao diện web
voicebox web --port 8000

Kết Luận #

VoiceBox dân chủ hóa công nghệ AI giọng nói bằng cách cung cấp một studio giọng nói mã nguồn mở hoàn chỉnh chạy hoàn toàn trên phần cứng của bạn. Dù bạn cần nhân bản giọng cho sáng tạo nội dung, chép cho khả năng tiếp cận hay chuyển văn bản thành giọng cho ứng dụng, VoiceBox mang lại kết quả chất lượng chuyên nghiệp với chi phí bằng không.

Với hỗ trợ cả GPU NVIDIA và Apple Silicon, khả năng đa ngôn ngữ và hệ sinh thái tích hợp ngày càng mở rộng, VoiceBox được định vị là giải pháp thay thế mã nguồn mở hàng đầu cho các nền tảng AI giọng nói thương mại. Cộng đồng sôi động và chu kỳ phát triển nhanh đảm bảo tính năng mới và cải tiến sẽ ra mắt thường xuyên.

Nguồn #

CTA #

Bắt đầu với VoiceBox ngay hôm nay bằng cách truy cập kho lưu trữ GitHub. Đối với triển khai tăng tốc GPU, hãy cân nhắc HTStack cho các instance GPU NVIDIA giá rẻ, hoặc DigitalOcean cho nền tảng đám mây được quản lý của họ.

FAQ #

q: Tôi cần bao nhiêu âm thanh để nhân bản giọng? #

a: VoiceBox có thể nhân bản giọng từ chỉ 3 giây âm thanh rõ ràng, nhưng để có kết quả tốt nhất, hãy cung cấp 30-60 giây giọng nói tự nhiên. Dữ liệu huấn luyện càng nhiều, chất lượng giọng nhân bản càng cao.

q: VoiceBox có hoạt động ngoại tuyến không? #

a: Có. Sau khi mô hình được tải xuống, VoiceBox hoạt động hoàn toàn ngoại tuyến. Không cần kết nối internet cho nhân bản giọng, chuyển văn bản thành giọng hoặc chế độ chép. Điều này khiến nó lý tưởng cho các ứng dụng nhạy cảm về quyền riêng tư.

q: Tôi có thể sử dụng VoiceBox trên nhiều thiết bị không? #

a: Có. Mô hình giọng được lưu trữ dưới dạng tệp có thể sao chép giữa các thiết bị. Chỉ cần xuất giọng nhân bản của bạn từ một thiết bị và nhập chúng trên thiết bị khác. Giao diện web và API hỗ trợ truy cập từ xa cho thiết lập đa thiết bị.

q: VoiceBox hỗ trợ định dạng âm thanh nào? #

a: VoiceBox hỗ trợ định dạng đầu vào bao gồm WAV, MP3, FLAC, OGG và AAC. Đầu ra có sẵn ở định dạng WAV, MP3, FLAC và OGG. Đối với chế độ chép, mọi định dạng đầu vào microphone đều được chấp nhận.

q: Có giới hạn về số lượng giọng tôi có thể nhân bản không? #

a: Không. VoiceBox không có giới hạn nhân tạo về số lượng giọng nhân bản. Hạn chế duy nhất là không gian lưu trữ và bộ nhớ hệ thống có sẵn. Mỗi mô hình giọng thường yêu cầu 500MB-2GB tùy theo cài đặt chất lượng.

q: VoiceBox có xử lý được giọng địa phương và phương ngữ không? #

a: Có. Các mô hình của VoiceBox được huấn luyện trên dữ liệu giọng nói đa dạng và có thể xử lý nhiều giọng địa phương và phương ngữ khác nhau. Khi nhân bản giọng, hệ thống nắm bắt đặc điểm giọng từ âm thanh huấn luyện. Hỗ trợ đa ngôn ngữ mở rộng sang các biến thể khu vực trong mỗi ngôn ngữ.

📦 Xuất hiện trong các bộ sưu tập

💬 Bình luận & Thảo luận