VoiceBox: 음성 복제, 녹취 및 생성을 위한 오픈소스 AI 음성 스튜디오
어떤 음성이라도 복제하고, 음성을 생성하며, 어떤 앱에도 녹취할 수 있는 풀스택 오픈소스 AI 음성 스튜디오. 33K 스타. CUDA 또는 Apple Silicon 지원을 lokale에서 실행됩니다.
- 업데이트 2026-06-25
VoiceBox: 오픈소스 AI 음성 스튜디오 #
VoiceBox는 음성 복제, 음성 생성 및 녹취를 위한 포괄적인 오픈소스 AI 음성 스튜디오로, 모든 것이 머신에서 로컬로 실행됩니다. 33,745개의 GitHub 스타와 활발한 개발 커뮤니티를 바탕으로, 클라우드 API에 의존하지 않고 강력한 음성 AI가 필요한 개발자, 콘텐츠 제작자 및 프라이버시 중심 사용자를 위한 필수 솔루션이 되었습니다.
이 글은 설치, 음성 복제, 녹취 모드, API 사용, 하드웨어 요구사항 및 실용적 적용 방법을 다룹니다.
TL;DR #
VoiceBox는 하드웨어 전체에서 완전히 실행되는 완성된 음성 AI 스택을 제공합니다. 3초의 오디오만으로 음성 복제, 시스템의 모든 앱에 대한 실시간 녹취, 고품질 텍스트-음성 변환 생성을 지원합니다. NVIDIA CUDA와 Apple Silicon(MLX) 모두 지원하여 하드웨어에 적응하면서 프라이버시를 유지합니다 — 음성 데이터는 머신을 떠나지 않습니다.
VoiceBox란? #
VoiceBox는 몇 가지 최첨단 기술을 단일 통합 인터페이스로 결합하는 자체 호스팅 음성 AI 플랫폼입니다. 오디오를 클라우드에 업로드해야 하는 상업용 음성 서비스와 달리, VoiceBox는 모든 것을 로컬에서 처리하여 음성 데이터에 대한 완전한 제어를 제공합니다.
플랫폼은 세 가지 주요 작동 모드를 지원합니다:
- 음성 복제: 짧은 오디오 샘플을 녹음하거나 업로드하여 해당 음성으로 음성을 생성할 수 있는 디지털 음성 모델 생성
- 녹취: 마이크를 사용하여 시스템의 모든 앱에 텍스트를 실시간으로 변환하여 입력
- 텍스트-음성 변환: 복제된 음성 또는 내장 음성 모델을 사용하여 자연스러운 음성을 텍스트에서 생성
Qwen3-TTS, Whisper 및 다양한 음성 복제 아키텍처를 기반으로 하는 VoiceBox는 제로 비용으로 엔터프라이즈급 음성 AI 기능을 제공합니다.
설치 가이드 #
사전 요구사항 #
VoiceBox는 여러 하드웨어 구성을 지원합니다:
GPU 가속 (권장):
- 8GB+ VRAM이 있는 NVIDIA GPU (RTX 3060 이상)
- CUDA 12.x 툴킷 설치됨
- 16GB 시스템 RAM
- Linux (Ubuntu 22.04+) 또는 Windows 11
Apple Silicon:
- 16GB+ 통합 메모리가 있는 M1/M2/M3 칩
- macOS 14+ (Sonoma 이상)
- MLX 프레임워크 설치됨
CPU 전용 (느리지만 기능적):
- 16GB+ 시스템 RAM
- 8+ CPU 코어
- 모든 현대 운영체제
옵션 1: Pip로 빠른 설치 #
# PyPI에서 VoiceBox 설치
pip install voicebox-ai
# 설치 확인
voicebox --version
# 애플리케이션 초기화
voicebox init --model qwen3-tts
옵션 2: 소스에서 설치 (최신 기능) #
# 저장소 복제
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 가상 환경 생성
python -m venv .venv
source .venv/bin/activate
# 종속성 설치
pip install -r requirements.txt
# 개발 모드에서 패키지 설치
pip install -e .
# 기본 음성 모델 다운로드
voicebox download-models --all
옵션 3: Docker 배포 #
# 공식 이미지 가져오기
docker pull jamiepine/voicebox:latest
# GPU 지원으로 실행 (NVIDIA)
docker run -d \
--name voicebox \
--gpus all \
-p 8000:8000 \
-v ${HOME}/voicebox-data:/data \
-e VOICEBOX_MODEL=qwen3-tts \
jamiepine/voicebox:latest
# Apple Silicon에서 실행 (GPU 플래그 불필요)
docker run -d \
--name voicebox \
-p 8000:8000 \
-v ${HOME}/voicebox-data:/data \
-e VOICEBOX_MODEL=qwen3-tts \
jamiepine/voicebox:latest
옵션 4: Windows 설치 #
# Microsoft Store에서 Python 3.11+ 설치
# 그런 다음 VoiceBox 설치
pip install voicebox-ai
# GPU 가속을 위해 CUDA 툴킷 설치
# 다운로드: https://developer.nvidia.com/cuda-downloads
# VoiceBox 초기화
voicebox init --gpu cuda
음성 복제 #
오디오 샘플 녹음 #
음성을 복제하려면 최소 3초의 명확한 오디오가 필요합니다. 최상의 결과를 위해 30-60초의 음성을 제공하세요:
# 내장 레코더로 오디오 녹음
voicebox record --output sample.wav --duration 30
# 기존 오디오 파일 업로드
voicebox clone --audio my_voice_sample.mp3 --name "my-voice"
# VoiceBox가 자동으로 오디오를 처리하고 음성 특징 추출
음성 처리 파이프라인 #
음성 복제 파이프라인은 여러 단계로 구성됩니다:
from voicebox.engine import VoiceCloner
from voicebox.audio import AudioProcessor
# 클로너 초기화
cloner = VoiceCloner(model="qwen3-tts-voice-clone")
# 참조 오디오 로드 및 전처리
processor = AudioProcessor()
reference = processor.load_audio("sample.wav")
reference = processor.normalize(reference, target_rms=-20)
reference = processor.remove_noise(reference, method="spectral")
# 음성 임베딩 추출
embeddings = cloner.extract_embeddings(reference)
# 음성 모델 생성
voice_model = cloner.create_voice(
embeddings=embeddings,
name="my-voice",
quality="high"
)
# 복제된 음성 테스트
output = voice_model.synthesize(
text="안녕하세요, 복제된 음성입니다.",
speed=1.0,
emotion="neutral"
)
voice_model.save(output, "test_output.wav")
고급 음성 매개변수 #
VoiceBox는 음성 합성에 세밀한 제어를 제공합니다:
# 발화 속도 조절
voicebox synthesize --input script.txt --output speech.wav --speed 0.8
# 감정 억양 추가
voicebox synthesize --input script.txt --output emotional.wav --emotion happy
# 피치 조절
voicebox synthesize --input script.txt --output pitched.wav --pitch +200
# 여러 매개변수 조합
voicebox synthesize \
--input script.txt \
--output natural.wav \
--speed 1.1 \
--pitch +100 \
--emotion confident \
--clarity high
다중 음성 지원 #
여러 음성 복제를 동시에 생성하고 관리할 수 있습니다:
from voicebox.engine import VoiceManager
manager = VoiceManager()
# 모든 복제된 음성 나열
voices = manager.list_voices()
for v in voices:
print(f"{v.name}: {v.quality} (학습 데이터 {v.duration}s)")
# 음성 간 전환
manager.set_active_voice("my-voice")
output = manager.synthesize("복제된 음성에서 안녕하세요!")
# 두 음성을 혼합하여 하이브리드 음성 생성
hybrid = manager.blend_voices(
voice_a="my-voice",
voice_b="partner-voice",
weight_a=0.7,
weight_b=0.3
)
output = hybrid.synthesize("혼합 음성 출력")
녹취 모드 #
VoiceBox의 녹취 모드는 시스템의 모든 앱에서 작동하는 실시간 음성-텍스트 변환을 제공합니다.
시스템 전체 녹취 설정 #
# 시스템 전체 녹취 활성화
voicebox dictation --enable
# 인식 모델 선택
voicebox dictation --model whisper-large-v3
# 출력 언어 설정
voicebox dictation --language en
# 핫키 구성
voicebox dictation --hotkey "ctrl+space"
녹취 API 사용 #
from voicebox.dictation import DictationEngine
# 녹취 엔진 초기화
engine = DictationEngine(
model="whisper-large-v3",
language="auto",
beam_size=5,
vad_threshold=0.5
)
# 듣기 시작
engine.start_listening(
hotkey="ctrl+shift+d",
output_mode="clipboard",
append_mode=True
)
# 녹취 세션 처리
result = await engine.listen_session(
timeout=300, # 5분 세션
silence_threshold=1.5, # 1.5초 침묵 후 중지
language="en"
)
print(f"변역: {result.text}")
print(f"신뢰도: {result.confidence:.2%}")
print(f"단어 수: {result.word_count}")
다국어 녹취 #
VoiceBox는 자동 언어 감지와 함께 동시 다국어 녹취를 지원합니다:
# 자동 감지 활성화
voicebox dictation --auto-detect
# 지원 언어 지정
voicebox dictation --languages en,zh,ko,ja,es,fr,de
# 주요 언어 설정 (더 나은 정확도)
voicebox dictation --primary-language en
텍스트-음성 변환 API #
VoiceBox는 프로그램matic 텍스트-음성 변환을 위한 완전한 REST API를 제공합니다:
기본 TTS #
# 간단한 텍스트-음성 변환
curl -X POST "https://your-voicebox/api/v1/tts" \
-H "Content-Type: application/json" \
-d '{
"text": "안녕하세요, VoiceBox 텍스트-음성 변환 테스트입니다.",
"voice": "default",
"speed": 1.0,
"output_format": "wav"
}' \
--output speech.wav
스트리밍 TTS #
실시간 오디오 스트리밍 애플리케이션용:
# 청크로 오디오 스트리밍
curl -N -X POST "https://your-voicebox/api/v1/tts/stream" \
-H "Content-Type: application/json" \
-d '{"text": "이 오디오는 실시간으로 스트리밍됩니다...", "voice": "cloned-voice"}' \
--output - | aplay
배치 처리 #
여러 텍스트를 동시에 처리:
from voicebox.api import VoiceBoxClient
client = VoiceBoxClient("https://your-voicebox")
texts = [
"처리로 할 첫 문장.",
"다른 내용이 포함된 두 번째 문장.",
"다른 음성으로 세 번째 문장.",
]
results = await client.tts.batch(
texts=texts,
voice="default",
output_format="mp3",
parallel_workers=4
)
for i, result in enumerate(results):
print(f"생성됨: speech_{i}.mp3 ({result.duration:.1f}s)")
하드웨어 요구사항 및 성능 #
GPU 성능 벤치마크 #
| 하드웨어 | 모델 | 복제 시간 | TTS 속도 | 녹취 지연 |
|---|---|---|---|---|
| RTX 4090 | Qwen3-TTS | 15초 | 3배 실시간 | < 50ms |
| RTX 3060 | Qwen3-TTS | 45초 | 2배 실시간 | < 80ms |
| M3 Max | Qwen3-TTS | 30초 | 2.5배 실시간 | < 60ms |
| M2 Base | Qwen3-TTS | 90초 | 1.2배 실시간 | < 150ms |
| CPU 전용 | Qwen3-TTS | 5분 | 0.3배 실시간 | < 500ms |
메모리 요구사항 #
| 작업 | 최소 | 권장 |
|---|---|---|
| 기본 TTS | 4GB RAM | 8GB RAM |
| 음성 복제 | 8GB RAM | 16GB RAM |
| 녹취 | 4GB RAM | 8GB RAM |
| 다중 음성 | 12GB RAM | 32GB RAM |
비교: VoiceBox vs 상업용 대안 #
| 기능 | VoiceBox | ElevenLabs | Amazon Polly | Google TTS |
|---|---|---|---|---|
| 가격 | 무료 | $5-50/월 | $4/백만 문자 | $4/백만 문자 |
| 음성 복제 | 예 (3초 샘플) | 예 (프리미엄) | 아니오 | 아니오 |
| 로컬 처리 | 예 | 아니오 | 아니오 | 아니오 |
| 오픈소스 | 예 | 아니오 | 아니오 | 아니오 |
| 사용자 정의 음성 | 무제한 | 5 (스타터) | 1 | 1 |
| 감정 제어 | 예 | 부분 | 아니오 | 아니오 |
| 실시간 | 예 | 예 | 예 | 예 |
| API 접근 | 전체 REST | REST | SDK | SDK |
| 다국어 | 30+ | 30+ | 40+ | 20+ |
| 프라이버시 | 완전 | 클라우드 | 클라우드 | 클라우드 |
통합 예제 #
Python 라이브러리 통합 #
import voicebox
# 빠른 TTS
result = voicebox.synthesize(
text="VoiceBox에서 안녕하세요!",
voice="default",
output_file="hello.wav"
)
# 오디오 파일에서 음성 복제
cloned = voicebox.clone_voice(
audio_file="sample.wav",
voice_name="my-voice"
)
# 클립보드에 녹취
voicebox.start_dictation(
hotkey="cmd+space",
target_app="any"
)
명령줄 통합 #
# 텍스트 파일에서 오디오 생성
voicebox tts --file script.txt --output narration.wav
# 팟캐스트 에피소드에서 음성 복제
voicebox clone --audio podcast_ep1.mp3 --name "podcaster"
# 텍스트를 여러 언어로 변환
for lang in en zh ko vi; do
voicebox tts --text "Hello world" --lang $lang --output greeting_$lang.wav
done
# 텍스트 파일 디렉토리 배치 처리
voicebox tts-batch --input ./scripts/ --output ./audio/ --voice default
웹 인터페이스 #
VoiceBox는 http://localhost:8000에서 접근 가능한 내장 웹 인터페이스를 포함합니다:
- 음성 복제를 위한 오디오 파일 업로드
- TTS 생성을 위한 텍스트 입력 또는 붙여넣기
- 녹취 핫키 및 언어 구성
- 시스템 리소스 사용량 모니터링
- 음성 모델 내보내기 및 관리
고급 사용 사례 #
팟캐스트 제작 #
VoiceBox를 사용하여 자신의 음성을 복제하고 여러 언어로 콘텐츠를 생성하세요:
# 기존 팟캐스트 에피소드에서 음성 복제
voicebox clone --audio ~/podcasts/episodes/*.mp3 --name "my-podcast-voice"
# 영어 버전 생성
voicebox tts --file article_en.txt --voice "my-podcast-voice" --output podcast_en.wav
# 중국어 버전 생성 (번역 먼저 필요)
voicebox tts --file article_zh.txt --voice "my-podcast-voice" --output podcast_zh.wav
# 한국어 버전 생성
voicebox tts --file article_ko.txt --voice "my-podcast-voice" --output podcast_ko.wav
접근성 응용 #
VoiceBox는 음성 장애 사용자가 원래 음성을 복제하여 의사소통할 수 있도록 도와줍니다:
# 몇 초의 자연스러운 음성 녹음
voicebox record --output baseline.wav --duration 10
# 음성 복제
voicebox clone --audio baseline.wav --name "accessible-voice"
# 텍스트-음성 변환을 위해 복제된 음성 사용
voicebox tts --text "물 주세요" --voice "accessible-voice" --output response.wav
콘텐츠 제작 #
비디오, 프레젠테이션 및 소셜 미디어 콘텐츠에 대한 내레이션 생성:
# 비디오 스크립트에 내레이션 생성
voicebox tts \
--file video_script.txt \
--voice "professional-narrator" \
--speed 1.05 \
--emotion engaging \
--output voiceover.wav
# 배경 음악 믹스 추가
ffmpeg -i voiceover.wav -i background_music.mp3 \
-filter_complex "[0:a][1:a]amix=inputs=2:duration=first" \
-output final_video_audio.mp3
한계 #
- 음성 품질은 학습 데이터에 의존: 노이즈가 있거나 짧은 녹음은 낮은 품질의 복제 생성
- 실시간 사용을 위해 GPU 권장: CPU 전용 모드는 기능적이지만 훨씬 느림
- 전문 성우 대체 불가: 인상적이지만 합성 음성은 전문 퍼포머의 뉘앙스를 결여
- 법적 고려사항: 사용하려는 모든 음성의 복제 권리를 확보하세요 (일부司法管轄에서는 자신 음성도 포함)
- 모델 업데이트: 새로운 음성 모델은 최적의 품질을 위해 기존 음성 재복제가 필요할 수 있음
시작 체크리스트 #
# 1. VoiceBox 설치
pip install voicebox-ai
# 2. 기본 모델로 초기화
voicebox init --model qwen3-tts
# 3. 음성 모델 다운로드
voicebox download-models --all
# 4. 기본 TTS 테스트
echo "Hello World" | voicebox tts --output test.wav
# 5. 녹취 설정
voicebox dictation --enable --hotkey "ctrl+space"
# 6. 웹 인터페이스 시작
voicebox web --port 8000
결론 #
VoiceBox는 하드웨어 전체에서 완전히 실행되는 완성된 오픈소스 음성 스튜디오를 제공하여 음성 AI 기술을 민주화합니다. 콘텐츠 제작을 위한 음성 복제, 접근성을 위한 녹취 또는 애플리케이션을 위한 텍스트-음성 변환이 필요하면, VoiceBox는 제로 비용으로 전문가 수준의 결과를 제공합니다.
NVIDIA GPU와 Apple Silicon 모두 지원, 다국어 기능 및 성장하는 생태계 통합을 바탕으로, VoiceBox는 상업용 음성 AI 플랫폼의 선두 오픈소스 대안으로 자리매김하고 있습니다. 활발한 커뮤니티와 빠른 개발 사이클은 새로운 기능과 개선이 정기적으로 도착함을 보장합니다.
출처 #
CTA #
GitHub 저장소를 방문하여 오늘 VoiceBox를 시작하세요. GPU 가속 배포를 위해서는 HTStack의 저렴한 NVIDIA GPU 인스턴스나 DigitalOcean의 관리형 클라우드 플랫폼을 고려하세요.
FAQ #
q: 음성을 복제하려면 오디오가 얼마나 필요한가요? #
a: VoiceBox는 명확한 오디오로부터 최소 3초로 음성을 복제할 수 있지만, 최상의 결과를 위해 30-60초의 자연스러운 음성을 제공하세요. 학습 데이터가 많을수록 복제된 음성의 품질이 높아집니다.
q: VoiceBox는 오프라인에서 작동하나요? #
a: 예. 모델이 다운로드되면 VoiceBox는 완전히 오프라인으로 작동합니다. 음성 복제, 텍스트-음성 변환 또는 녹취 모드를 위해 인터넷 연결이 필요하지 않습니다. 이는 프라이버시 민감한 애플리케이션에 이상적입니다.
q: VoiceBox를 여러 기기에서 사용할 수 있나요? #
a: 예. 음성 모델은 기기 간에 복사할 수 있는 파일로 저장됩니다. 하나의 기기에서 복제된 음성을 내보내고 다른 기기에서 가져오면 됩니다. 웹 인터페이스와 API는 멀티 디바이스 설정을 위한 원격 접근을 지원합니다.
q: VoiceBox는 어떤 오디오 형식을 지원하나요? #
a: VoiceBox는 WAV, MP3, FLAC, OGG, AAC를 포함한 입력 형식을 지원합니다. 출력은 WAV, MP3, FLAC, OGG 형식으로 제공됩니다. 녹취 모드의 경우 모든 마이크 입력 형식이 허용됩니다.
q: 복제할 수 있는 음성의 수가 제한되나요? #
a: 아닙니다. VoiceBox에는 복제된 음성 수에 대한 인공적인 제한이 없습니다. 유일한 제약은 사용 가능한 저장 공간과 시스템 메모리입니다. 각 음성 모델은 품질 설정에 따라 일반적으로 500MB-2GB가 필요합니다.
q: VoiceBox는 악센트와 방언을 처리할 수 있나요? #
a: 예. VoiceBox의 모델은 다양한 음성 데이터로 훈련되었으며 다양한 악센트와 방언을 처리할 수 있습니다. 음성을 복제할 때 시스템은 훈련 오디오에서 악센트 특징을 포착합니다. 다국어 지원은 각 언어 내 지역 변체에까지 확장됩니다.
💬 댓글 토론