When should I use Replicate?

오픈소스 AI 모델을 REST API로 즉시 실행하는 클라우드 추론 플랫폼

Replicate | AI Tools - BioPlayground

Replicate는 2019년 미국에서 Ben Firshman·Andreas Jansson 공동창업한 클라우드 AI 모델 호스팅 플랫폼이에요. 한 줄로 표현하면 "오픈소스 AI 모델의 Stripe API" 입니다. Llama·Stable Diffusion XL·Whisper·MusicGen·SAM 같은 10,000+ 모델을 GPU 없이 REST API 한 줄로 호출하고, 사용한 GPU 초 단위로 과금하는 구조 (예: SDXL 1장 ~/bin/zsh.0023, Llama-3 70B 1k tokens ~/bin/zsh.001). 기존 클라우드 AI는 (1) AWS·GCP·Azure 같은 일반 클라우드에 직접 모델 배포 → 인프라·MLOps 부담, (2) OpenAI·Anthropic API → 모델 선택권 없음, (3) Hugging Face Inference API → 일부 모델만, 대형 LLM은 제한 같은 한계가 있었어요. Replicate는 "Cog"라는 오픈소스 컨테이너 표준으로 모델 패키징 → 사용자가 모델 페이지 방문 → "Run" 또는 API 호출 → 결과 webhook/스트리밍 수신 흐름을 표준화했습니다. 마치 "Vercel이 프론트엔드 deploy 표준화했듯, Replicate는 AI 모델 deploy 표준화"인 셈이죠. 모델 페이지에는 input/output schema·예시 결과·가격·평균 추론 시간이 명시되어 통합 부담이 적어요. 생명공학 연구자 관점에서는 (1) ESMFold·OpenFold 같은 단백질 구조 예측 모델을 GPU 없이 호출, (2) Stable Diffusion XL로 논문 figure·연구 일러스트 자동 생성, (3) Whisper로 학회·인터뷰 녹음 일괄 STT, (4) MusicGen·AudioCraft로 강의 BGM 생성, (5) Custom 모델 deploy (Cog로 패키징하면 자체 모델도 Replicate에 호스팅 가능)까지 가능해요. 월 사용량이 적으면 Hugging Face Spaces·Inference API보다 비용 효율이 좋고, 사용량이 많으면 dedicated deployment(예약 GPU)로 비용 고정 가능합니다. Ollama·Hugging Face와 병렬로 쓰면 시너지가 강해요. "평소엔 로컬 Ollama로 빠른 프로토타입 → 대형 모델·트래픽 폭주 시 Replicate에 burst → 안정 운영 단계에서 dedicated deployment" 같은 단계적 확장. 또는 "HF에서 모델 발굴 → Cog로 Replicate에 deploy → 본인 앱에서 API 호출" 흐름도 표준 패턴입니다.

💻 필요한 컴퓨터 사양

🧠RAM

클라우드 호출만 사용 시 0 (브라우저나 노트북만으로 충분). Cog로 자체 모델 패키징·로컬 테스트 시 16GB+

🎮VRAM

클라우드 호출 0 / Cog 로컬 테스트 시 모델 크기에 따라 8-48GB. Replicate 서버 측 GPU는 A100·H100 자동 할당

💾저장공간

클라우드 0 / Cog 로컬 빌드 시 Docker 이미지 10-50GB. 결과 파일은 7일간 Replicate CDN에 자동 호스팅 (다운로드 또는 webhook 처리)

⚡ 설치법

# Python SDK
pip install replicate

# 1. 환경변수 설정 (API 토큰)
export REPLICATE_API_TOKEN=r8_xxx  # replicate.com 가입 후 발급

# 2. 모델 호출 (예: Llama-3 70B)
import replicate
output = replicate.run(
    "meta/meta-llama-3-70b-instruct",
    input={"prompt": "단백질 구조 예측에서 AlphaFold와 ESMFold 차이는?", "max_tokens": 500}
)
print("".join(output))

# 3. 이미지 생성 (Stable Diffusion XL)
output = replicate.run(
    "stability-ai/sdxl:39ed52f2a78e934b3ba6e2a89f5b1c712de7dfea535525255b1aa35c5565e08b",
    input={"prompt": "protein structure visualization, scientific illustration"}
)
# output[0] = 생성된 이미지 URL

# 4. STT (Whisper)
output = replicate.run(
    "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
    input={"audio": open("interview.mp3", "rb")}
)

# 5. Cog로 자체 모델 deploy
pip install cog
# cog.yaml + predict.py 작성 후
cog push r8.im/myusername/my-bio-model

# 6. REST API 직접 호출 (Python 없이)
curl -X POST https://api.replicate.com/v1/predictions   -H "Authorization: Bearer "   -d '{"version":"...","input":{"prompt":"..."}}'

BioPlayground

Replicate

💻 필요한 컴퓨터 사양

⚡ 설치법

📝 업데이트 노트

🧪 관련 생명의 코드