BioPlayground

🧬
← AI Tools
audio_aiintermediate

Qwen3-TTS

초저지연 스트리밍 합성**: Dual-Track 하이브리드 스트리밍 아키텍처로 첫 오디오 패킷 97ms(0.6B) / 101ms(1.7B) 지연. 한 글자 입력 즉시 음성 출력 시작

- 초저지연 스트리밍 합성: Dual-Track 하이브리드 스트리밍 아키텍처로 첫 오디오 패킷 97ms(0.6B) / 101ms(1.7B) 지연. 한 글자 입력 즉시 음성 출력 시작 - 3초 제로샷 음성 클로닝: 3초 분량의 레퍼런스 오디오만으로 화자의 음색·운율·억양을 복제하여 새로운 텍스트를 해당 목소리로 합성 - 자연어 음성 디자인 (Voice Design): "긴장한 10대 남성 목소리" 같은 자연어 설명만으로 완전히 새로운 음성을 생성. 생성된 음성은 Base 모델에서 재사용 가능 - 10개 언어 다국어 TTS: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 지원. 교차 언어(Cross-lingual) 합성도 가능 - 독자적 12Hz 토크나이저: 16-layer 멀티코드북 설계로 초당 12.5프레임의 극한 압축률 달성. 2048 엔트리 코드북으로 음향 정보 완전 보존 (PESQ 3.21, STOI 0.96, UTMOS 4.16) - 9종 프리셋 화자 (CustomVoice): Vivian, Serena, Ryan, Aiden, Ono_Anna, Sohee 등 중국어·영어·일본어·한국어 네이티브 화자 9명 내장 - 5종 모델 라인업: 0.6B Base/CustomVoice, 1.7B Base/CustomVoice/VoiceDesign — 리소스·용도별 선택 가능

💻 필요한 컴퓨터 사양

🧠RAM

0.6B 모델 BF16 기준 ~2-4GB, 1.7B 모델 BF16 기준 ~4-8GB. NVIDIA GPU FlashAttention 2 호환 권장 (RTX 3060 이상). CPU 전용 실행 가능하나 실시간 스트리밍 불가

💾저장공간

모델 1개 ~1-3GB (BF16 safetensors), 전체 5종 + 토크나이저 약 10-15GB

⚡ 설치법

### 4-1. Quick Start

```bash
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation  # 선택, GPU 가속
```

### 4-2. 소스 설치

```bash
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
pip install -e .
```

### 4-3. 기본 사용 (음성 클로닝)

```python
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_clone(
    text="Hello, this is a voice cloning demo.",
    language="English",
    ref_audio="reference.wav",
    ref_text="Reference audio transcript"
)
sf.write("output.wav", wavs[0], sr)
```

### 4-4. 자연어 음성 디자인

```python
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_design(
    text="음성 디자인 데모입니다.",
    language="Chinese",
    instruct="A warm, gentle female voice with a slow speaking pace"
)
sf.write("designed_voice.wav", wavs[0], sr)
```

### 4-5. Web UI 데모 실행

```bash
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000
```

🧬 바이오 활용

🔬

다국어 임상시험 음성 안내 자동화**

글로벌 임상시험에서 10개 언어 환자 동의서(Informed Consent)를 표준화된 음성으로 자동 생성. CustomVoice 프리셋으로 언어별 네이티브 화자 음성을 선택하고, 각 환자 코호트에 맞는 안내 오디오를 일괄 합성. 기존 성우 녹음 대비 제작 시간 수십 분의 1로 단축하면서 발음 정확도(WER 1.24% 이하) 유지

🧬

의료 교육 콘텐츠 다국어 내레이션**

의학 강의·프로토콜 영상에 Voice Design 기능으로 "차분하고 권위 있는 중년 남성 의사 목소리" 같은 자연어 지시로 맞춤 내레이터를 생성. 1.7B-VoiceDesign 모델로 한국어 원본 강의를 영어·일본어·독일어 등으로 교차 언어 합성하여 국제 교육 배포. 97ms 스트리밍으로 실시간 자막 동기화 가능

💊

실험실 프로토콜 음성 어시스턴트**

습식 실험(wet-lab) 중 손을 사용할 수 없는 연구자에게 실험 프로토콜을 음성으로 안내. 3초 레퍼런스로 연구실 PI의 목소리를 클로닝하여 친숙한 음성으로 단계별 지시를 스트리밍 합성. 0.6B 경량 모델로 워크스테이션 GPU에서 실시간 실행, 파이펫팅·원심분리 등 핸즈프리 환경에서 효율 극대화

📄 공식문서🐙 GitHub

📝 업데이트 노트

아직 업데이트 노트가 없습니다.

🧪 관련 생명의 코드

관련된 생명의 코드 글이 아직 없습니다.