Fish Audio S2
Dual-AR 아키텍처**: 4B 파라미터 Slow AR(시간축 의미 코드북 예측) + 400M 파라미터 Fast AR(잔여 9개 코드북 생성)로 구성된 이중 자기회귀 모델
Fish Audio S2는 Fish Audio가 2026년 3월 공개한 오픈소스 TTS(Text-to-Speech) 모델이에요. 한 줄로 표현하면 '15,000개 감정 태그로 웃음·속삭임·전문 방송 톤을 인라인으로 지정할 수 있는 다국어 음성 생성기'입니다. 기존 zero-shot TTS는 텍스트만 던지면 단조로운 톤으로 읽거나, 감정을 입히려면 별도 prosody 모델을 끼워야 했어요. Fish Audio S2는 **Dual-AR 아키텍처**(4B Slow AR + 400M Fast AR)로 의미적 코드북과 잔여 음성 코드북을 분리 예측해, 감정·운율 태그를 자연어 인라인 형태로 받습니다. `[laugh] 안녕하세요 [professional broadcast tone] 오늘의 뉴스입니다` 처럼 한 문장 안에 톤 전환을 끼울 수 있고, 블라인드 평가에서 Bradley-Terry 1위(3.07)를 기록했죠. 실무 관점에서는 (1) 80+ 언어를 단일 모델로 커버해 다국어 콘텐츠 더빙을 한 모델로 처리하고, (2) 10-30초 참조 오디오만으로 zero-shot 음성 클론을 만들어 캐릭터별 일관된 화자 음성을 생성하며, (3) RTF 0.195(H200 1장)와 TTFA ~100ms 실시간 추론으로 인터랙티브 음성 에이전트 백엔드에 바로 붙일 수 있습니다.
💻 필요한 컴퓨터 사양
24GB 권장 (추론 기준). CPU 전용 모드 가능하나 실시간 처리 불가
모델 체크포인트 ~8-15GB, 전체 패키지 + 의존성 포함 약 20GB
⚡ 설치법
### 4-1. Quick Start
```bash
# Conda 환경 생성 + GPU 설치
conda create -n fish-speech python=3.12
conda activate fish-speech
pip install -e .[cu129]
```
### 4-2. 상세 설치
```bash
# 시스템 의존성 (Linux)
apt install portaudio19-dev libsox-dev ffmpeg
# UV 패키지 매니저 (빠른 의존성 해소)
uv sync --python 3.12 --extra cu129 # GPU
uv sync --python 3.12 --extra cpu # CPU 전용
# Docker Compose (권장 배포 방식)
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
docker compose --profile webui up # WebUI (localhost:7860)
docker compose --profile server up # API 서버 (localhost:8080)
COMPILE=1 docker compose --profile webui up # 최적화 빌드 (~10x 속도 향상)
```
### 4-3. 기본 사용 예시
```python
# CLI 추론 (참조 오디오로 음성 클론)
# 모델 체크포인트를 checkpoints/ 에 다운로드 후:
# fish-speech infer --text "안녕하세요" --reference ./ref_audio.wav
```🧬 바이오 활용
실시간 다국어 음성 합성**
80개 이상 언어를 단일 모델로 처리하여, 글로벌 콘텐츠 로컬라이제이션에 활용. 10초 참조 오디오로 원어민 화자 클론 후 다국어 더빙 자동 생성. RTF 0.195로 스트리밍 서비스 실시간 투입 가능
감정 표현이 풍부한 오디오북/팟캐스트 제작**
`[whispers]`, `[excited]`, `[laugh]` 등 15,000+ 인라인 태그로 단조로운 TTS를 넘어선 감정 풍부한 내레이션 생성. 멀티스피커 대화 기능으로 팟캐스트 형식 콘텐츠 자동 제작
연구용 음성 데이터 생성**
Seed-TTS Eval WER 0.54%(중국어)/0.99%(영어) 수준의 고품질 합성 음성으로 ASR 모델 훈련 데이터 증강, 다국어 음성 코퍼스 구축, 음성 인터페이스 프로토타이핑에 활용
📝 업데이트 노트
아직 업데이트 노트가 없습니다.
🧪 관련 생명의 코드
관련된 생명의 코드 글이 아직 없습니다.