VoiceCraft: 8.5K+ Stars — GPT-SoVITS, XTTS 대비 제로샷 음성 편집 2026
VoiceCraft는 신경 코덱 언어 모델 기반의 제로샷 음성 편집 및 TTS 모델로, GPT-SoVITS, Coqui TTS, RVC와 호환됩니다. 설치 튜토리얼, 벤치마크, Docker 배포, 비교표를 다룹니다.
- ⭐ 8500
- MIT
- 업데이트 2026-05-19
{{< resource-info >}}
소개 #
음성 오디오를 편집하려면 전체 녹음을 스튜디오에서 다시 녹음해야 했다. 팟캐스트 진행자가 한 단어를 더듬거나 오디오북 낭독자가 이름을 잘못 발음하면, 수정을 위해 또 다른 녹음 세션을 예약하고 마이크를 설치한 뒤 원래 톤을 맞춰야 했다. 이 워크플로는 비싸고 느리다. 2024년 텍사스 대학 오스틴 캠퍼스와 Meta FAIR의 연구팀이 VoiceCraft를 발표했다. 이는 단 몇 초의 참조 오디오만으로 음성을 편집하고 목소리를 복제하는 신경 코덱 언어 모델이다. 해당 저장소는 현재 GitHub에서 8,500개 이상의 star와 796개의 fork를 보유하고 있으며, 논문은 ACL 2024에 수락되었다. 이 가이드에서는 VoiceCraft 설치 방법을 살펴 보고, GPT-SoVITS, XTTS v2, Coqui TTS와 비교하며, Docker를 사용한 프로덕션 배포 패턴을 보여준다.
VoiceCraft란? #
VoiceCraft는 두 가지 핵심 작업을 수행하는 토큰 인필링 신경 코덱 언어 모델이다: (1) 제로샷 텍스트 음성 변환(TTS) 보이스 클론, (2) 기존 녹음 내 음성 편집. 스피커당 수 시간의 훈련 데이터가 필요한 기존 TTS 파이프라인과 달리, VoiceCraft는 3-5초의 참조 오디오만으로 높은 충실도로 목소리를 재현한다. Transformer 디코더 아키텍처를 기반으로 하며, 인과적 마스킹과 지연 스태킹을 결합한 새로운 토큰 재배열 절차를 도입하여 양방향 문맥을 조건으로 하는 자기회귀 생성을 가능하게 한다.

VoiceCraft의 작동 방식 #
아키텍처 개요 #
모델 파이프라인은 세 단계로 구성된다:
EnCodec 양자화: 원시 오디오 파형은 Meta의 EnCodec 신경 코덱을 사용하여 이산 토큰으로 양자화된다. 각 오디오 프레임은 K개의 코드북 인덱스 벡터(잔차 벡터 양자화, RVQ)로 표현된다.
토큰 재배열: 이것이 VoiceCraft의 핵심 혁신이다. 두 단계 절차는 편집/인필링 문제를 표준적인 왼쪽에서 오른쪽으로의 언어 모델링 작업으로 변환한다:
- 인과적 마스킹: 토큰의 무작위 구간이 마스킹되어 시퀀스 끝으로 이동되며, 모델이 자기회귀 생성 중 양방향 문맥에 주목할 수 있게 한다.
- 지연 스태킹: 벡터가 대각선으로 이동하여 시간 t에서 코드북 k를 예측할 때 코드북 k-1을 조건으로 삼을 수 있게 하여 효율적인 다중 코드북 모델링을 가능하게 한다.
Transformer 디코더: 재배엸된 토큰 시퀀스가 Transformer 디코더에 의해 자기회귀적으로 모델링된다. 텍스트 음소와 음성 토큰이 조건 입력으로 연결된다.
모델 버전 #
| 모델 | 파라미터 | 적합한 용도 | 최대 길이 |
|---|---|---|---|
| giga330M | 3.3억 | 품질/속도 균형 | 16초 |
| giga830M | 8.3억 | 최고 품질 | 30초 이상 |
| giga330M-TTS-강화 | 3.3억 | TTS 전용 미세조정 | 16초 |
RealEdit 데이터셋 #
VoiceCraft는 RealEdit를 도입했다. 오디오북, YouTube 동영상, Spotify 팟캐스트에서 수집한 310개의 실제 음성 편집 예제로 구성된 벤치마크 데이터셋이다. 깨끗한 연구소 데이터셋(LibriTTS, VCTK)과 달리, RealEdit는 다양한 억양, 배경 소음, 음악, 말하기 스타일을 포함하여 음성 편집 품질의 실용적인 척도가 된다.

설치 및 설정 #
옵션 1: Docker (권장) #
Docker는 작동하는 VoiceCraft 환경에 가장 빠른 경로이다. 공식 Dockerfile은 EnCodec, Montreal Forced Aligner(MFA), CUDA 바인딩을 포함한 모든 의존성을 처리한다.
# 1. 저장소 클론
git clone https://github.com/jasonppy/VoiceCraft.git
cd VoiceCraft
# 2. Docker 이미지 빌드
docker build --tag "voicecraft" .
# 3. 컨테이너 시작 (Linux)
./start-jupyter.sh
# Windows:
# start-jupyter.bat
# 4. 로그에서 Jupyter 접속 URL 가져오기
docker logs jupyter | grep "127.0.0.1:8888"
# 5. 컨테이너 내에서 GPU 확인
docker exec -it jupyter nvidia-smi
컨테이너는 8888번 포트에서 Jupyter Lab을, 7860번 포트에서 Gradio UI를 노출한다. inference_tts.ipynb 또는 inference_speech_editing.ipynb를 열어 추론을 실행한다.
옵션 2: Conda 환경 (로컬 개발) #
모델 개발 및 미세조정을 위해 로컬 Conda 환경이 더 많은 유연성을 제공한다.
# 환경 생성 및 활성화
conda create -n voicecraft python=3.9.16
conda activate voicecraft
# CUDA 11.7이 포함된 PyTorch 설치
pip install torch==2.0.1 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu117
# audiocraft 설치 (EnCodec 의존성)
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
# 메모리 효율적인 어텐션을 위한 xformers
pip install xformers==0.0.22
# 핵심 의존성
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
# 시스템 의존성
apt-get install -y ffmpeg espeak-ng
# 텍스트-오디오 정렬용 Montreal Forced Aligner(MFA) 설치
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
# MFA 영어 모델 다운로드
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
# Jupyter 커널 (선택)
conda install -n voicecraft ipykernel --no-deps --force-reinstall
옵션 3: Gradio 로컬 UI #
노트북 없이 브라우저 기반 인터페이스를 사용하려면:
# Gradio 추가 시스템 의존성
apt-get install -y espeak espeak-data libespeak1 libespeak-dev
apt-get install -y festival build-essential flac libasound2-dev libsndfile1-dev
# Gradio 요구사항 설치
pip install -r gradio_requirements.txt
# Gradio 서버 실행
python gradio_app.py
http://127.0.0.1:7860에서 웹 UI에 접근한다.
하드웨어 요구사항 #
| 구성 | 최소 GPU | 권장 GPU | RAM |
|---|---|---|---|
| 전체 추론 (830M) | 8 GB (kvcache) | 32 GB VRAM | 32 GB |
| 빠른 추론 (330M) | 8 GB | 16 GB VRAM | 16 GB |
| Gradio UI | 8 GB | 16 GB VRAM | 16 GB |
kvcache 최적화는 약간의 품질 저하를 감수하고 상당한 메모리 감소를 얻어 8 GB GPU에서도 추론을 가능하게 한다.
인기 도구와의 통합 #
VoiceCraft + Gradio Web UI #
내장 Gradio 인터페이스는 실험에 가장 쉬운 방법이다:
# 기본 설정으로 Gradio 실행
python gradio_app.py --model-name "giga330M" --device "cuda"
# 사용자 지정 모델 경로 사용
python gradio_app.py \
--model-path "./pretrained_models/giga330M.pth" \
--codec-model "encodec_16khz" \
--share # 공개 URL 생성
Gradio UI는 세 가지 모드를 지원한다: TTS 모드 (제로샷 보이스 클론), 편집 모드 (음성 편집), 긴 TTS 모드 (긴 텍스트 분할 생성).
VoiceCraft + Jupyter 노트북 #
프로그래밍 방식 접근을 위해 Jupyter 노트북을 사용한다:
# inference_tts.ipynb — 제로샷 TTS 예제
from voicecraft import VoiceCraft
# 330M 모델 로드 (더 빠름, 품질 양호)
model = VoiceCraft.from_pretrained("pyp1/VoiceCraft", subfolder="giga330M")
# 3-5초 참조 오디오 제공
reference_audio = "demo/pam.wav" # 참조 클립
reference_text = "I found the amazing VoiceCraft model"
# 합성할 텍스트
target_text = "This is a test of zero shot voice cloning with VoiceCraft"
# 생성
output = model.tts(
target_text=target_text,
reference_audio=reference_audio,
reference_text=reference_text,
top_k=40, # 2025년 3월 업데이트: top-k=40 품질 향상
temperature=1.0
)
output.save("output_tts.wav")
VoiceCraft + 명령줄 #
배치 처리 및 스크립팅:
# CLI를 통한 TTS 추론
python tts_demo.py \
--audio_path "demo/pam.wav" \
--target_transcript "This is the text to speak" \
--model_name "giga330M" \
--top_k 40 \
--temperature 1.0 \
--output_path "output.wav"
# CLI를 통한 음성 편집
python speech_editing_demo.py \
--audio_path "demo/pam.wav" \
--original_transcript "original text here" \
--edited_transcript "edited text here" \
--model_name "giga830M" \
--output_path "edited_output.wav"
VoiceCraft + Docker API #
프로덕션 배포를 위해 VoiceCraft를 REST API로 감싼다:
# Dockerfile.api — 프로덕션 API 래퍼
FROM voicecraft:latest
WORKDIR /app
COPY api.py ./
COPY requirements-api.txt ./
RUN pip install -r requirements-api.txt
EXPOSE 8000
CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "8000"]
# api.py — VoiceCraft용 FastAPI 래퍼
from fastapi import FastAPI, UploadFile, File
from voicecraft import VoiceCraft
import torchaudio
app = FastAPI()
model = VoiceCraft.from_pretrained("pyp1/VoiceCraft", subfolder="giga330M")
@app.post("/tts")
async def tts(
audio: UploadFile = File(...),
reference_text: str = "",
target_text: str = ""
):
"""제로샷 TTS 엔드포인트."""
ref_audio, sr = torchaudio.load(audio.file)
output = model.tts(
target_text=target_text,
reference_audio=ref_audio,
reference_text=reference_text,
top_k=40
)
return {"output": output.serialize()}
VoiceCraft + HuggingFace Hub #
HuggingFace에서 사전 훈련된 모델을 직접 다운로드:
from huggingface_hub import hf_hub_download
# 모델 가중치 다운로드
model_path = hf_hub_download(
repo_id="pyp1/VoiceCraft",
filename="giga330M.pth",
subfolder="",
local_dir="./pretrained_models"
)
# ModelScope를 통한 다운로드 (중국 지역용)
from modelscope import snapshot_download
model_dir = snapshot_download('AI-ModelScope/VoiceCraft')
벤치마크 / 실제 사용 사례 #
제로샷 TTS 벤치마크 #
ACL 2024 논문의 인간 평가 결과는 250개 테스트 발화(LibriTTS + YouTube)에서 VoiceCraft를 VALL-E, XTTS v2, FluentSpeech, YourTTS와 비교한다:
| 모델 | WER | SIM | 명료성 MOS | 자연스러움 MOS | 화자 유사도 MOS |
|---|---|---|---|---|---|
| VoiceCraft | 4.5 | 0.55 | 4.23 | 4.17 | 4.34 |
| XTTS v2 | 3.6 | 0.47 | 4.13 | 3.96 | 3.44 |
| VALL-E | 7.1 | 0.50 | 4.00 | 3.86 | 4.07 |
| FluentSpeech | 3.5 | 0.47 | 3.67 | 3.38 | 4.01 |
| YourTTS | 6.6 | 0.41 | 3.14 | 2.79 | 2.79 |
| 실제 녹음 | 3.8 | 0.76 | 4.39 | 4.48 | 4.44 |
VoiceCraft는 화자 유사도(SIM 0.55)와 모든 인간 평가 MOS 지표에서 최고 점수를 달성했다. 명료성에서는 실제 녹음보다 0.16, 화자 유사도에서는 0.10 뒤진다.
음성 편집 벤치마크 #
RealEdit 데이터셋(310개 실제 편집 예제)에서 VoiceCraft는 FluentSpeech를 능가한다:
| 모델 | WER | 명료성 MOS | 자연스러움 MOS |
|---|---|---|---|
| VoiceCraft | 6.1 | 4.11 | 4.03 |
| FluentSpeech | 4.5 | 3.97 | 3.81 |
| 원본 (미편집) | 5.4 | 4.22 | 4.17 |
주목할 점은, 나란히 듣기 테스트에서 인간 청취자가 VoiceCraft 편집 음성을 원본 미편집 녹음보다 48%의 확률로 더 선호했다는 것이다 — 모델 출력이 실제 오디오와 거의 구분할 수 없음을 의미한다.
실제 응용 사례 #
| 응용 사례 | 참조 오디오 | 출력 품질 | 설정 시간 |
|---|---|---|---|
| 팟캐스트 편집 | 5초 호스트 목소리 | 자연스러움 MOS 4.03 | < 2분 |
| 오디오북 보이스 클론 | 5초 낭독자 목소리 | 유사도 SIM 0.55 | < 2분 |
| YouTube 동영상 더빙 | 5초 화자 목소리 | 자연스러움 MOS 4.17 | < 2분 |
| 콜센터 음성 합성 | 3초 상담원 목소리 | 유사도 SIM 0.55 | < 1분 |

고급 사용법 / 프로덕션 강화 #
KV Cache를 사용한 메모리 최적화 #
VRAM이 제한된 GPU의 경우 키-값 캐시를 활성화:
# 8GB GPU용 kvcache 활성화
output = model.tts(
target_text=target_text,
reference_audio=reference_audio,
reference_text=reference_text,
top_k=40,
kvcache=True, # VRAM 사용량 약 60% 감소
batch_size=1
)
Top-k 샘플링 (2025년 3월 업데이트) #
기본 샘플링 전략이 top-p=1.0에서 top-k=40으로 업데이트되어 출력 품질이 크게 향상:
# 권장: top-k=40 최고 품질
output = model.tts(
target_text=target_text,
reference_audio=reference_audio,
reference_text=reference_text,
top_k=40,
temperature=1.0
)
사용자 정의 데이터 미세조정 #
특정 도메인 목소리의 경우 사전 훈련된 모델을 미세조정:
# 데이터셋 준비
conda activate voicecraft
cd ./data
python phonemize_encodec_encode_hf.py \
--dataset_size xs \
--download_to /path/to/downloads \
--save_dir /path/to/processed \
--encodec_model_path /path/to/encodec \
--mega_batch_size 120 \
--batch_size 32 \
--max_len 30000
# 미세조정 시작
cd ../z_scripts
bash e830M_ft.sh # 830M 모델 미세조정
모니터링 및 로깅 #
import logging
from torch.utils.tensorboard import SummaryWriter
# 로깅 설정
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("voicecraft")
# 훈련 모니터링용 TensorBoard
writer = SummaryWriter(log_dir="./runs/voicecraft-ft")
writer.add_scalar("loss/train", loss.item(), global_step)
writer.add_scalar("mos/validation", val_mos, global_step)
보안 및 윤리적 고려사항 #
VoiceCraft의 라이선스(코드 CC BY-NC-SA 4.0, 가중치 Coqui Public Model License)는 동의 없이 타인의 음성을 생성하거나 편집하는 것을 금지하는 윤리적 면책 조항을 포함한다. 프로덕션 배포의 경우:
- 클론 전 화자 확인 구현
- 모든 합성 요청에 대한 감사 추적 기록
- 합성 음성 워터마킹 추가
- 남용 방지를 위한 API 속도 제한
대안과의 비교 #
| 기능 | VoiceCraft | GPT-SoVITS | Coqui TTS (XTTS v2) | VALL-E |
|---|---|---|---|---|
| GitHub Stars | 8,500 | 57,000 | 35,000* | N/A (논문만) |
| 파라미터 | 3.3억 / 8.3억 | 약 10억 | 4.67억 | 10억 |
| 음성 편집 | 네이티브, SotA | 미지원 | 미지원 | 제한적 |
| 제로샷 TTS | 3-5초 참조 | 5초 참조 | 6초 참조 | 3초 참조 |
| 화자 유사도 MOS | 4.34 | ~4.0 | 3.44 | 4.07 |
| 자연스러움 MOS | 4.17 | ~3.8 | 3.96 | 3.86 |
| 언어 지원 | 영어 | 영/일/한/중/웅 | 17개 언어 | 영어 |
| 추론 RTF | ~0.3x (GPU) | 0.028x (4060Ti) | 0.18x (A100) | ~0.5x |
| 라이선스 | CC BY-NC-SA 4.0 | MIT | CPML (비영리) | N/A |
| Docker 지원 | 공식 | 커뮤니티 | 커뮤니티 | N/A |
| Gradio UI | 내장 | 내장 | CLI/API 전용 | N/A |
| 미세조정 | 지원 | 지원 | 지원 | N/A |
*Coqui TTS 저장소 stars는 XTTS뿐 아니라 모든 TTS 모델을 포함한다.
VoiceCraft를 선택할 때:
- 음성 편집이 주요 사용 사례 — 오픈소스 경쟁자가 없음
- 최고 화자 유사도가 필요 (MOS 4.34 vs XTTS 3.44)
- 노이즈가 많은 실제 오디오 작업 (팟캐스트, YouTube)
- 학술 또는 비영리 연구 (CC BY-NC-SA 라이선스)
GPT-SoVITS를 선택할 때:
- 중국어 또는 일본어 보이스 클론이 필요
- 상업적 사용이 필요 (MIT 라이선스)
- 가장 빠른 추론 속도가 중요 (RTF 0.028)
- 1분 데이터로 퓨샷 미세조정
XTTS v2를 선택할 때:
- 다국어 지원 (17개 언어)이 필요
- 이미 Coqui TTS 생태계를 사용 중
- Coqui의 상업 라이선스가 수용 가능
한계 / 정직한 평가 #
VoiceCraft는 모든 오디오 작업에 적합한 도구가 아니다. 유지 관리자와 논문이 인정하는 한계는 다음과 같다:
영어만 지원: 릴리스된 모델은 영어 음소만 지원한다. 후속 VoiceCraft-X(2024년 11월)는 11개 언어로 확장되지만 별도의 모델이다.
비상업적 라이선스: 코드(CC BY-NC-SA 4.0)와 모델 가중치(Coqui Public Model License) 모두 추가 계약 없이는 상업적 사용을 제한한다.
하드웨어 요구사항: 830M 모델은 전체 추론에 32GB GPU 메모리가 필요하다. 330M 모델조차도 소비자용 GPU에서 신중한 메모리 관리가 필요하다.
생성 아티팩트: 생성된 오디오에 가끔 긴 침묵과 긁히는 소리가 나타날 수 있다. 해결 방법(여러 출력을 샘플링하고 가장 짧은 것을 선택)은 계산 오버헤드를 추가한다.
스트리밍 추론 없음: VoiceCraft는 전체 시퀀스를 자기회귀적으로 생성하여 Kokoro나 MeloTTS와 같은 모델에 비해 실시간 스트리밍 TTS가 비실용적이다.
복잡한 설정: pip로 설치 가능한 TTS 도구와 비교하면, VoiceCraft는 Docker 또는 Conda와 MFA, EnCodec, 특정 CUDA 버전이 필요 — 30초 설치가 아니다.
자주 묻는 질문 #
Q1: VoiceCraft 보이스 클론에 필요한 참조 오디오는 얼마인가?
VoiceCraft 제로샷 TTS에는 3-5초의 참조 오디오만 필요하다. 최상의 결과를 위해 배경 소음이나 음악이 없는 깨끗한 녹음을 사용하라. 모델은 EnCodec RVQ 토큰을 통해 참조를 화자 임베딩으로 인코딩하므로 더 긴 참조가 반드시 품질을 향상시키지는 않는다.
Q2: VoiceCraft를 상업 프로젝트에 사용할 수 있나?
VoiceCraft 코드는 CC BY-NC-SA 4.0, 모델 가중치는 Coqui Public Model License 1.0.0 — 둘 다 상업적 사용을 제한한다. 상업적으로 허용되는 대안이 필요한 경우 GPT-SoVITS(MIT 라이선스)를 고려하거나 XTTS v2에 대한 상업 라이선스를 Coqui에서 구매하라.
Q3: VoiceCraft를 실행하려면 어떤 GPU가 필요한가?
830M 모델은 32GB VRAM이 필요하다(A100, V100, 또는 RTX 4090 + 시스템 RAM 공유). 330M 모델은 16GB GPU에서 실행 가능하며 kvcache=True로 8GB 카드에서도 추론할 수 있다. CPU 전용 추론은 8코어 Ryzen에서 7분 이상 걸리지만 GPU에서는 35초이다.
Q4: VoiceCraft와 GPT-SoVITS 보이스 클론은 어떻게 비교되나?
VoiceCraft는 영어 오디오에서 더 높은 화자 유사도(SIM 0.55 vs ~0.50)와 자연스러움(MOS 4.17 vs ~3.8)을 달성한다. 그러나 GPT-SoVITS는 중국어와 일본어를 기본적으로 지원하고, 추론이 더 빠륩(RTF 0.028 vs ~0.3)고, MIT 라이선스를 사용한다. 음성 편집 특히 VoiceCraft에는 오픈소스 경쟁자가 없다.
Q5: VoiceCraft가 전체 파일을 다시 합성하지 않고 기존 녹음을 편집할 수 있나?
예 — 음성 편집이 VoiceCraft의 핵심 차별화 기능이다. 전사에서 편집 구간(삽입, 삭제 또는 대체)을 지정하면 모델은 주변 문맥을 보존하면서 영향을 받는 오디오 세그먼트만 인필링한다. 이는 전체 재합성보다 효율적이고 음향 연속성을 유지한다.
Q6: 생성된 오디오의 “긁히는 소리"를 어떻게 수정하나?
이것은 자기회귀 코덱 모델의 알려진 문제이다. 2025년 3월 업데이트(top-k=40 대 top-p=1.0)는 아티팩트를 크게 줄인다. 추가 해결 방법: (1) 여러 출력을 샘플링하고 가장 짧고/깨끗한 것을 선택, (2) 온도를 0.9로 낮춤, (3) TTS 품질에 특히 미세조정된 330M-TTS-Enhanced 모델 사용.
Q7: VoiceCraft에 REST API나 웹 서비스가 있나?
공식 저장소는 Gradio UI와 Jupyter 노트북을 제공한다. VoiceCraft_API와 같은 커뮤니티 프로젝트는 이를 FastAPI 서버로 감싼다. 프로덕션의 경우 Docker 컨테이너를 API 게이트웨이 뒤에 배포하고 속도 제한과 화자 확인을 구현하라.
결론 #
VoiceCraft는 대부분의 TTS 도구가 무시하는 간극을 메운다: 새 음성을 합성하는 것뿐 아니라 기존 음성을 편집하는 것이다. 8,500개의 GitHub stars와 ACL 2024 수락은 진정한 기술적 가치를 반영한다 — 특히 자기회귀 생성에서 양방향 문맥을 가능하게 하는 토큰 재배열 절차. 벤치마크는 명확하다: VoiceCraft는 화자 유사도(MOS 4.34)에서 선두를 달리고, 청취자가 원본 녹음보다 편집된 오디오를 48%의 확률로 더 선호한다.
팟캐스트 편집기, 오디오북 도구 또는 보이스 클론 서비스를 구축하는 개발자에게 VoiceCraft는 설정 노력이 값어치하다. Docker 퀵스타트로 시작하여 Gradio UI에서 테스트한 다음 Python API를 통해 통합하라.
VoiceCraft 배포 패턴을 논의하고, 미세조정 설정을 공유하고, 프로덕션 설정에 대한 도움을 받으려면 우리의 Telegram 그룹에 참여하라.
추천 호스팅 및 인프라 #
위 도구들을 프로덕션에 배포하려면 안정적인 인프라가 필요합니다. dibi8가 직접 사용 중인 두 가지 옵션:
- DigitalOcean — 60일 $200 무료 크레딧, 14개 이상 글로벌 리전. 오픈소스 AI 도구의 기본 선택.
- HTStack — 홍콩 VPS, 중국 본토 저지연 접속. dibi8.com 호스팅 중인 검증된 IDC.
제휴 링크 — 추가 비용 없이 dibi8 운영을 지원합니다.
출처 및 추가 참고자료 #
- VoiceCraft GitHub 저장소
- VoiceCraft 논문 — ACL 2024
- VoiceCraft arXiv (v3)
- VoiceCraft 데모 페이지
- VoiceCraft-X: 다국어 확장
- HuggingFace 모델 가중치
- GPT-SoVITS 저장소
- Coqui TTS / XTTS v2
- EnCodec — Meta의 신경 코덱
- RealEdit 데이터셋 정보
- VoiceCraft Docker 설정 가이드
- VoiceCraft_API — FastAPI 래퍼
이 가이드는 dibi8 기술팀이 독립적으로 작성했다. VoiceCraft는 Puyuan Peng, Po-Yao Huang, Shang-Wen Li, Abdelrahman Mohamed, David Harwath가 개발했다. dibi8과 VoiceCraft 프로젝트 사이에는 상업적 관련이 없다.
💬 댓글 토론