When should I use ESMC / ESMFold2?

단백질 생물학 월드 모델 — 진화적 규모의 단백질 이해·설계 플랫폼

ESMC / ESMFold2 | AI Tools

ESMC와 ESMFold2는 Biohub가 2026년 5월 27일 공개한 단백질 생물학 월드 모델(world model)이다. GPT가 인간 언어의 문법과 의미를 대규모 텍스트로부터 학습하듯, ESMC는 지구상 모든 생명체로부터 수집한 약 28억 개 단백질 서열을 사전 학습하여 진화가 수십억 년에 걸쳐 축적한 단백질 설계 문법을 습득한 60억 파라미터 규모의 기초 언어 모델이다. ESMFold2는 이 ESMC의 임베딩 위에 루프 트랜스포머(looped transformer)와 확산 기반(diffusion-based) 구조 예측 아키텍처를 결합하여, 아미노산 서열 하나만으로 원자 수준(all-atom) 3D 구조를 예측하고 나아가 치료용 단백질 바인더를 설계하는 엔진이다. 기존 단백질 구조 예측의 표준이었던 AlphaFold 계열은 다중 서열 정렬(Multiple Sequence Alignment, MSA)에 크게 의존한다. MSA 기반 접근은 진화적으로 보존된 단백질에는 강력하지만, 항체처럼 빠르게 변이하는 서열에서는 정렬 신호가 소실되어 정확도가 급락하는 구조적 한계가 있다. ESMC-ESMFold2는 소위 "쓴 교훈(The Bitter Lesson)" 철학을 채택했다. MSA 없이 순수한 BERT 계열 트랜스포머를 충분히 크고 다양한 데이터로 훈련하면 특수 아키텍처를 능가한다는 스케일링 법칙에 베팅한 것이다. 그 결과 항체-항원 결합 예측에서 AlphaFold 3을 초과하는 정확도를 달성했으며, Chai-1과 Boltz-1 등 경쟁 모델 대비에서도 우위를 보인다. 단일 서열 모드에서는 MSA 기반 대비 약 10배의 추론 속도 향상을 제공하여 대규모 스크리닝에도 적합하다. 생명공학 연구자 관점에서 가장 주목할 점은 실험실에서 검증된 치료용 바인더 설계 역량이다. Biohub 팀은 EGFR, PDGFRβ, PD-L1, CTLA-4, CD45 등 5개 암·면역 표적에 대해 컴팩트 미니바인더 36-88%, 항체 유래 포맷 15-29%의 히트율로 나노몰(nanomolar) 친화도의 바인더를 설계했으며, PD-L1 바인더는 실제 T세포 신호 복원 기능까지 입증했다. 기존에 수개월에서 수년이 걸리던 표적 바인더 설계 주기를 며칠로 단축한 것이다. 또한 ESM Atlas를 통해 68억 개 서열과 11억 개 예측 구조를 탐색할 수 있으며, 희소 오토인코더(Sparse Autoencoder, SAE) 기반 약 16,000개 해석 가능 특징(interpretable feature)으로 미주석 단백질의 기능을 매핑할 수 있다. MIT 라이선스로 모델과 코드가 완전 공개되어 있어 학술·산업 연구자 모두 로컬 GPU에서 직접 실행하거나 Biohub 플랫폼 API를 통해 접근할 수 있다.

💻 필요한 컴퓨터 사양

🧠RAM

NVIDIA GPU 16GB+ 권장. FP16 기준 ESMC-6B 가중치만 약 12GB 점유하며, 추론 활성화 메모리까지 고려 시 24GB급(A100, RTX 4090 등) 최적. CPU 단독 실행은 가능하나 매우 느림

💾저장공간

ESMC-6B + ESMFold2 모델 합산 약 15-25GB. ESM Atlas 데이터는 Biohub 플랫폼에서 온라인 접근 (로컬 다운로드 시 수백 GB 이상)

⚡ 설치법

### 4-1. Quick Start

```bash
pip install esm@git+https://github.com/Biohub/esm.git@main
```

> PyPI 공식 릴리스 준비 중 (2026-06-17 기준 GitHub 직접 설치만 가능)

### 4-2. 기본 사용 예시

```python
from transformers import AutoModelForMaskedLM, AutoTokenizer

# ESMC-6B 로드 (HuggingFace, 인증 필요)
model = AutoModelForMaskedLM.from_pretrained("biohub/ESMC-6B", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("biohub/ESMC-6B")

# 단백질 서열 임베딩 추출
sequence = "MKTAYIAKQRQISFVKSHFSRQLEERLGLIEVQAPILSRVGDGTQDNLSGAEKAVQVKVKALPDAQFEVVHSLAKWKRQQIA"
inputs = tokenizer(sequence, return_tensors="pt").to(model.device)
outputs = model(**inputs, output_hidden_states=True)
embeddings = outputs.hidden_states[-1]
```

### 4-3. Biohub 플랫폼 API 접근

```python
# biohub.ai 개발자 콘솔에서 API 토큰 발급 후 사용
from esm import esmc_client

client = esmc_client(
    model="ESMC-6B",
    url="https://biohub.ai/api",
    token="YOUR_API_TOKEN"
)
result = client.predict(sequence="MKTAYIAK...")
```

🧬 바이오 활용

🔬

항체 치료제 후보 바인더 설계

ESMFold2의 드노보(de novo) 바인더 설계 프로토콜을 활용하여 PD-L1, CTLA-4 같은 면역 체크포인트 표적에 대한 미니바인더를 생성한다. 컴팩트 미니바인더 기준 36-88% 히트율과 나노몰 친화도를 달성하며, 설계 후 PyMOL이나 ChimeraX로 3D 결합 구조를 시각화하여 실험 검증 우선순위를 결정한다. 기존 수개월의 설계 주기를 3-5일로 단축하여 치료제 후보 도달 시간을 획기적으로 줄인다

🧬

미주석 단백질 기능 탐색 및 신규 표적 발굴

ESM Atlas(68억 서열, 11억 구조)에서 SAE 기반 16,000개 해석 가능 특징을 활용하여 기능 미지 단백질을 기능 클러스터로 분류한다. ESMC-6B 임베딩을 추출한 뒤 UMAP 등으로 차원 축소 시각화하면, 기존 주석이 없는 단백질도 알려진 단백질과의 특징 유사성으로 역할을 추론할 수 있다. 환경 메타게노믹스 샘플에서 신규 항균 펩타이드 후보를 발견하는 등 표적 확장(target expansion) 초기 단계에 활용한다

💊

대규모 변이체 구조 스크리닝

ESMC-6B의 단일 서열 추론 모드를 활용하여 MSA 없이 수만 개 변이체 라이브러리의 구조를 일괄 예측한다. AlphaFold 3 대비 약 10배 빠른 추론 속도로, GPU 서버에서 하루 수만 건 처리가 가능하다. 예측 신뢰도 점수 기반으로 상위 후보를 필터링한 뒤 정밀 도킹 시뮬레이션(HADDOCK, ClusPro 등)으로 이관하여 히트 화합물 선별 효율을 극대화한다

📝 업데이트 노트

vv3.2.2.post26/17/2026

이번 업데이트에서는 단백질뿐만 아니라 DNA, RNA, 리간드를 포함한 복합체 구조를 예측할 수 있는 'All-Atom' 기능이 새롭게 도입되었습니다. 이를 통해 단백질과 핵산, 혹은 화합물 간의 상호작용을 더욱 정교하게 분석할 수 있어 신약 개발 및 구조 생물학 연구의 범위를 크게 넓힐 수 있습니다. 또한, MSA(다중 서열 정렬) 처리 효율을 높이는 기능과 SDK 안정성 개선이 함께 이루어져 더욱 빠르고 신뢰도 높은 구조 예측 파이프라인을 구축할 수 있습니다.

BioPlayground

ESMC / ESMFold2