Hume AI TADA
Text-Acoustic Dual Alignment (1:1 토큰 정렬)**: 텍스트 토큰과 음성 벡터를 1:1로 동기화하여 기존 TTS의 고질적 문제인 단어 누락·반복·환각을 아키텍처 수준에서 제거. 1,000건 이상 LibriTTSR 테스트에서 콘텐츠 환각 제로 달성.
- Text-Acoustic Dual Alignment (1:1 토큰 정렬): 텍스트 토큰과 음성 벡터를 1:1로 동기화하여 기존 TTS의 고질적 문제인 단어 누락·반복·환각을 아키텍처 수준에서 제거. 1,000건 이상 LibriTTSR 테스트에서 콘텐츠 환각 제로 달성. - 5배 빠른 추론 속도: Real-Time Factor(RTF) 0.09로 동급 LLM 기반 TTS 대비 약 5배 빠름. 기존 시스템이 초당 12.5~75개 오디오 토큰을 처리하는 반면, TADA는 2~3 프레임/초로 동작하면서도 고품질 음성 합성. - 10배 효율적 컨텍스트 윈도우: 2,048 토큰으로 약 700초(~11.7분) 분량의 오디오를 커버. 기존 시스템의 ~70초 대비 10배 효율. 장문 낭독·오디오북·긴 대화 생성에 유리. - 다국어 지원 (10개 언어): 3B 모델 기준 영어, 아랍어, 중국어, 독일어, 스페인어, 프랑스어, 이탈리아어, 일본어, 폴란드어, 포르투갈어 지원. 언어별 aligner 모듈로 확장. - Dual-Stream 생성: 텍스트와 음성을 동시에 생성하며, text-only 모드와 text-speech 모드 간 logit 블렌딩으로 발화 품질 제어 가능. - 프롬프트 캐싱: `EncoderOutput.save()/load()`로 레퍼런스 음성 인코딩 결과를 캐싱하여 반복 추론 시 VRAM ~2.5GB 절약 및 속도 향상. - Flow Matching 기반 디코딩: LLM hidden state에 조건화된 flow-matching head로 고충실도 오디오 복원.
💻 필요한 컴퓨터 사양
3B 모델 기준 bf16 정밀도 ~9GB, 표준 정밀도 ~11.5GB. NVIDIA GPU CUDA 호환 필수. RTX 3060(12GB) 이상이면 bf16으로 3B 모델 구동 가능. 1B 모델은 더 낮은 VRAM으로 동작.
3B 모델 가중치 ~8GB, 1B 모델 ~2GB, 코덱(tada-codec) ~500MB. 전체 패키지 약 10-12GB
⚡ 설치법
### 4-1. Quick Start
```bash
pip install hume-tada
```
### 4-2. 소스 빌드
```bash
git clone https://github.com/HumeAI/tada.git
cd tada
pip install -e .
```
### 4-3. 기본 사용 (Python)
```python
from tada.modules.encoder import Encoder
from tada.modules.tada import TadaForCausalLM
import torch, torchaudio
# 모델 로드 (3B 다국어, bf16 정밀도)
encoder = Encoder.from_pretrained("HumeAI/tada-codec",
subfolder="encoder").to("cuda")
model = TadaForCausalLM.from_pretrained("HumeAI/tada-3b-ml",
torch_dtype=torch.bfloat16).to("cuda")
# 레퍼런스 음성으로 화자 스타일 프롬프팅
audio, sr = torchaudio.load("reference.wav")
prompt = encoder(audio, text=["reference text"], sample_rate=sr)
# 새 텍스트로 음성 합성
output = model.generate(prompt=prompt, text="합성할 텍스트")
```
> **참고**: HuggingFace에서 Meta Llama 3.2 Community License를 사전 수락해야 모델 가중치 다운로드 가능.📝 업데이트 노트
아직 업데이트 노트가 없습니다.
🧪 관련 생명의 코드
관련된 생명의 코드 글이 아직 없습니다.