Ideogram 4.0
9.3B 파라미터 Single-stream Diffusion Transformer (DiT)**: 34개 트랜스포머 블록, 4,608 임베딩 차원, 18 어텐션 헤드, SwiGLU 12,288 중간 차원. QK-RMSNorm, 3D Multimodal RoPE, AdaLN 타임스텝 모듈레이션 적용. Flow-matching Euler 샘플러와 비대칭 CFG(Classifier-Free Guidance) 사용
- 9.3B 파라미터 Single-stream Diffusion Transformer (DiT): 34개 트랜스포머 블록, 4,608 임베딩 차원, 18 어텐션 헤드, SwiGLU 12,288 중간 차원. QK-RMSNorm, 3D Multimodal RoPE, AdaLN 타임스텝 모듈레이션 적용. Flow-matching Euler 샘플러와 비대칭 CFG(Classifier-Free Guidance) 사용 - 구조화된 JSON 프롬프트 인터페이스: 훈련 전체가 구조화된 JSON 캡션으로 수행되어, 바운딩박스(0-1000 정규화 좌표, [y_min, x_min, y_max, x_max] 형식) 레이아웃 제어, 최대 16색(요소당 5색) HEX 컬러 팔레트 컨디셔닝, 타이핑 텍스트 요소의 리터럴 문자열과 시각 스타일링 분리 배치를 하나의 JSON 스키마로 통합 제어. 스키마 검증(validation) 파이프라인 내장 - 업계 최고 수준 텍스트 렌더링: 영어 OCR 정확도 0.97 (X-Omni 벤치마크), ContraLabs 타이포그래피 평가 47.9% 1위 선택률, 다국어 텍스트 지원. 로고·간판·캡션 등 인-이미지 타이포그래피 전문 수준 - 유연한 해상도와 샘플러 프리셋: 256-2048px 네이티브 지원 (16의 배수), 최대 6:1 종횡비. 12스텝(빠른 초안), 20스텝(표준), 48스텝(V4_QUALITY_48, 최고 품질) 프리셋 제공 - 텍스트 인코더: Qwen3-VL-8B-Instruct 비전-언어 모델의 13개 중간 레이어 히든 스테이트를 피처 차원으로 결합 (단일 레이어가 아닌 다층 특징 융합) - Magic Prompt API: 평문 프롬프트를 구조화된 JSON 프롬프트로 자동 확장하는 API (API 키 필요, IDEOGRAM_API_KEY 환경변수) - 양자화 체크포인트: HuggingFace에서 FP8(전 플랫폼) 및 NF4(CUDA 전용) 즉시 다운로드 — NF4로 단일 24GB GPU에서 실행 가능
💻 필요한 컴퓨터 사양
NF4 양자화 시 24GB GPU 1장 (RTX 4090 / RTX 3090 급), FP8 시 40GB+ 권장 (A100 / A6000 급). CPU 전용 실행은 공식 미지원
NF4 체크포인트 ~5GB, FP8 체크포인트 ~10GB, 텍스트 인코더 ~16GB, 전체 환경 약 30-50GB
⚡ 설치법
### 4-1. Quick Start
```bash
# HuggingFace 게이트 접근 승인 후
pip install git+https://github.com/ideogram-oss/ideogram-4.git
```
### 4-2. 상세 설치
```bash
# 1. 리포지토리 클론
git clone https://github.com/ideogram-oss/ideogram-4.git
cd ideogram-4
# 2. 의존성 설치
pip install .
# 또는 개발 모드
pip install -e .
# 3. HuggingFace 인증 (게이트 모델 접근)
huggingface-cli login
# 4. 추론 실행 (NF4 양자화)
python run_inference.py \
--prompt "your prompt here" \
--output out.png \
--quantization "nf4"
```
### 4-3. Python API (diffusers)
```python
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"ideogram-ai/ideogram-4-fp8",
dtype=torch.bfloat16,
device_map="cuda"
)
image = pipe("Astronaut in jungle").images[0]
image.save("output.png")
```
### 4-4. 클라우드 API
```bash
# API 키 발급: developer.ideogram.ai
# 인증: Api-Key 헤더
curl -X POST https://api.ideogram.ai/v1/ideogram-v3/generate \
-H "Api-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"prompt": "A serene mountain landscape at sunset"}'
```
API 엔드포인트: Generate(텍스트→이미지), Remix(이미지 변형), Edit(부분 수정), Reframe(해상도 확장), Replace Background(배경 교체), Face Swapping(얼굴 교체). 기본 동시 요청 한도 10건, 대규모 처리 시 partnership@ideogram.ai 문의.🧬 바이오 활용
로고·브랜딩 디자인 자동화**
JSON 프롬프트로 바운딩박스 위치에 회사명 텍스트를 배치하고, HEX 컬러 팔레트 6색으로 브랜드 색상을 지정하여 로고 시안 100장 일괄 생성. OCR 정확도 0.97 수준의 텍스트가 이미지에 정확히 렌더링되어, 디자이너가 후보작 선별에만 집중 가능
과학 논문·포스터용 그래피컬 앱스트랙트 생성**
복잡한 실험 워크플로우를 시각화할 때, 바운딩박스로 각 단계 위치를 지정하고 텍스트 라벨("Step 1: Sample Prep", "Step 2: Analysis" 등)을 정확히 배치. V4_QUALITY_48 프리셋으로 2048x1024 고해상도 학회 포스터 인쇄 품질 달성
다국어 마케팅 크리에이티브**
동일한 레이아웃 JSON에 텍스트 요소만 교체하여 영어·한국어·일본어 버전 광고 이미지를 동시 생성. 컬러 팔레트 컨디셔닝으로 브랜드 일관성 유지하면서 문화권별 색감 미세 조정
📝 업데이트 노트
아직 업데이트 노트가 없습니다.
🧪 관련 생명의 코드
관련된 생명의 코드 글이 아직 없습니다.