VoxCPM2
OpenBMB가 2026년 4월에 공식 공개한 VoxCPM2는 연속적인 음향 공간 내에서 사람이 직접 말하듯 자연스러운 음성을 생성해내는 오픈소스 기반의 혁신적인 차세대 음성 합성 시스템입니다. 기존 음성 모델들이 미세한 소리 단위를 기계적인 토큰으로 나누어 처리하다가 연산 병목이나 부자연스러운 단어 결합을 일으켰던 한계를 극복하기 위해, 대규모 언어 모델인 MiniCPM 백본과 개선된 고해상도 오디오 인코더 구조를 유기적으로 연결했습니다. 텍스트를 기계적인 소리 조각으로 바꾸어 내보내는 기존의 불연속 오디오 토큰 변환 과정에서 탈
OpenBMB가 2026년 4월에 공식 공개한 VoxCPM2는 연속적인 음향 공간 내에서 사람이 직접 말하듯 자연스러운 음성을 생성해내는 오픈소스 기반의 혁신적인 차세대 음성 합성 시스템입니다. 기존 음성 모델들이 미세한 소리 단위를 기계적인 토큰으로 나누어 처리하다가 연산 병목이나 부자연스러운 단어 결합을 일으켰던 한계를 극복하기 위해, 대규모 언어 모델인 MiniCPM 백본과 개선된 고해상도 오디오 인코더 구조를 유기적으로 연결했습니다. 텍스트를 기계적인 소리 조각으로 바꾸어 내보내는 기존의 불연속 오디오 토큰 변환 과정에서 탈피하여, 연속적인 소리의 파형과 결을 그대로 재구성하는 토크나이저 프리 아키텍처(Tokenizer-free architecture)를 도입함으로써 48kHz 스튜디오급 고음질 오디오 출력을 로컬 환경에서도 실현했습니다. 전통적인 텍스트 음성 변환 방식이 텍스트 단어를 잘게 쪼개어 기계적인 발음 기호나 불연속 토큰으로 변환한 뒤 다시 오디오로 합성하는 형태였다면, VoxCPM2는 연속적인 음향 공간(Continuous acoustic space)을 직접 추론하여 소리의 끊김이나 인위적인 톤 왜곡이 전혀 없는 자연스러운 파형을 형성합니다. 이는 마치 거대 언어 모델이 이전 문맥의 흐름을 읽고 자연스럽게 문장을 이어 쓰듯이, VoxCPM2 역시 소리의 시작점부터 끝나는 지점까지의 미세한 호흡과 악센트의 흐름을 유기적으로 직조해 나갑니다. 사용자가 텍스트로 감정과 목소리 성향을 묘사하는 것만으로 새로운 음성 페르소나를 만드는 보이스 디자인(Voice Design) 및 짧은 오디오 클립 하나로 고유한 음색을 복제하는 제로샷 음성 클로닝(Zero-shot voice cloning) 기능을 제공합니다. 이 모델은 다국어 환경을 요구하는 글로벌 서비스나 인공지능 보이스 에이전트를 구축하는 연구자들에게 강력한 성능과 유연성을 동시에 제공합니다. 연구자들은 VoxCPM2가 지원하는 30여 개 이상의 주요 다국어 데이터셋 환경에서 자연스럽게 언어를 넘나드는 합성 음성을 실시간 스트리밍 형태로 전송할 수 있습니다. 로컬 GPU 자원을 활용하여 단 몇 초 만에 텍스트 대본으로부터 감정이 실린 오디오를 대량 생산하거나, LoRA와 같은 효율적인 미세조정 기법을 활용해 특정 화자의 미세한 언어 습관까지 정교하게 학습시키는 맞춤형 파이프라인 개발에 이르기까지 폭넓게 활용할 수 있습니다.
💻 필요한 컴퓨터 사양
최소 8GB (NVIDIA RTX 3060 등 소비자용 GPU 권장), CPU 전용/MPS 지원
약 10GB 이상 (모델 가중치 및 디펜던시 패키지 포함)
⚡ 설치법
### 4-1. Quick Start
```bash
pip install voxcpm
```
### 4-2. 상세 설치
```bash
# 저장소 복제 및 의존성 설치
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
pip install -r requirements.txt
# (선택 사항) LoRA 미세조정을 위한 웹 인터페이스 실행
python lora_ft_webui.py
```🧬 바이오 활용
{"icon"
"🎙️", "title": "다국어 보이스 봇 구축 및 실시간 스트리밍 합성", "scenario": "VoxCPM2 API와 inference_timesteps=10 파라미터를 사용해 한국어, 영어 등 30개국어 대본을 실시간 오디오 스트림(48kHz)으로 생성하고, GPU(VRAM 8GB) 상에서 1초 내외의 지연 시간으로 합성 완료 → 글로벌 가상 비서 음성 인터페이스 구현"}
{"icon"
"📖", "title": "오디오북 제작용 제로샷 음성 클로닝 및 보이스 디자인", "scenario": "15초 분량의 화자 오디오 파일을 prompt_wav_path로 설정하고 VoxCPM2 모델을 구동하여 1시간 분량의 원고를 대상 화자의 감정 톤과 음색이 보존된 오디오 파일로 무제한 렌더링 → 도서 및 오디오 콘텐츠 제작 생산성 5배 향상"}
{"icon"
"🎯", "title": "도메인 특화 LoRA 미세조정을 통한 브랜드 맞춤형 성우 음성 학습", "scenario": "특정 전문 성우의 녹음 데이터 1시간과 텍스트 스크립트를 사용하여 lora_ft_webui.py를 통해 Epoch 20회 미세조정(LoRA) 수행 → 고유의 브랜드 정체성을 담은 48kHz 스튜디오 고품질 합성 음색 획득 및 상업 서비스 적용"}
📝 업데이트 노트
- v2.0.36/22/2026
VoxCPM2 v2.0.3에서는 학습 전 데이터의 오류를 미리 잡아내는 `validate` 기능이 추가되어, 실험 데이터셋 구축 시 발생할 수 있는 시행착오를 크게 줄여줍니다. 참조 오디오(`ref_audio`) 지원과 스트리밍 디코딩 성능 개선을 통해 더욱 정교하고 빠른 오디오 생성 및 분석 실험이 가능해졌습니다. 또한, LoRA 로딩 보안 강화와 장치별 안정성 개선은 대규모 데이터를 다루는 연구자들에게 더욱 안전하고 신뢰할 수 있는 컴퓨팅 환경을 제공합니다.
🧪 관련 생명의 코드
관련된 생명의 코드 글이 아직 없습니다.