BioPlayground

🧬
← AI Tools
bio_aibeginner

ESMC (EvolutionaryScale Cambrian)

인류 역사상 가장 급격한 진화적 폭발이 일어났던 캄브리아기(Cambrian)의 이름에서 따온 **ESMC**는 2026년 5월 찬 져커버그 바이오허브(Chan Zuckerberg Biohub)와 에볼루셔너리스케일(EvolutionaryScale)의 공동 연구진에 의해 발표된 차세대 생물학 파운데이션 모델(Foundation model)입니다. 이 모델은 거대한 단백질 우주의 설계도를 파악하기 위해 지구상에 존재하는 생명체들로부터 수집한 약 28억 개의 아미노산 서열 데이터를 학습하였습니다. 마치 인간이 작성한 수십억 페이지의 텍스트

인류 역사상 가장 급격한 진화적 폭발이 일어났던 캄브리아기(Cambrian)의 이름에서 따온 ESMC는 2026년 5월 찬 져커버그 바이오허브(Chan Zuckerberg Biohub)와 에볼루셔너리스케일(EvolutionaryScale)의 공동 연구진에 의해 발표된 차세대 생물학 파운데이션 모델(Foundation model)입니다. 이 모델은 거대한 단백질 우주의 설계도를 파악하기 위해 지구상에 존재하는 생명체들로부터 수집한 약 28억 개의 아미노산 서열 데이터를 학습하였습니다. 마치 인간이 작성한 수십억 페이지의 텍스트를 읽고 언어의 문법을 깨우친 대형 언어 모델(Large Language Model)처럼, ESMC는 단백질 아미노산 서열의 배열을 통해 단백질의 물리·화학적 폴딩(Folding) 법칙과 복잡한 상호작용 기전을 스스로 학습하는 마스크드 언어 모델링(Masked language modeling) 아키텍처를 채택하고 있습니다. 기존의 생물정보학적 분석 도구들은 주로 다중 서열 정렬(Multiple Sequence Alignment) 방식에 의존하여 종간 보존된 서열을 비교하는 정적이고 국소적인 분석에 머물렀기 때문에, 새로운 아미노산 조합이 만들어내는 동적이고 입체적인 상호작용을 예측하는 데 한계가 있었습니다. ESMC는 이러한 정적인 비교 분석을 넘어, 생물학적 서열 전체를 다차원의 연속적인 임베딩(Embedding) 공간에 매핑함으로써 단백질의 진화적 맥락과 구조적 잠재력을 유기적으로 포착해냅니다. 이는 기존의 비교 생물학 방식이 오래된 사전에서 단어의 뜻을 하나씩 대조해 찾는 과정이었다면, ESMC는 수많은 소설 속에서 문맥을 파악해 단어의 다층적인 뉘앙스를 한 번에 이해하는 것과 유사합니다. 이 도구는 특히 오픈 웨이트(Open weight) 형태로 제공되어 전 세계 연구자들이 연산 자원 및 연구 목적에 맞춰 300M에서 6B 파라미터(Parameter)까지 적합한 크기의 모델을 로컬 환경에 유연하게 배포하여 단백질 언어 표상 성능을 극대화할 수 있도록 지원합니다. 생명공학 분야의 연구원들은 새로운 신약 표적 단백질에 강력하게 결합하는 인공 단백질 바인더(Binder)를 발굴하는 과정에서 ESMC를 핵심적인 예측 엔진으로 배치할 수 있습니다. 예를 들어 특정 암세포 표면 수용체의 3차원 바인딩 인터페이스(Binding interface) 정보를 바탕으로, 해당 수용체에 특이적으로 결합할 수 있는 후보 아미노산 서열을 설계하고 이를 ESMC의 언어 모델 평가 점수(Likelihood score)로 스크리닝하여 실제 합성 실험을 진행할 후보군의 범위를 대폭 좁힐 수 있습니다. 또한 구조 생물학 연구를 위해 ESMFold2 모델과 통합된 구조 예측 파이프라인을 연동함으로써, 서열 정보 입력 후 1초 이내에 원자 수준(All-atom resolution)의 정밀한 3D 입체 구조를 예측하여 기존 실험실에서 수개월씩 소요되던 결정 구조 분석(X-ray crystallography) 과정을 가상 공간에서 빠르게 선행 검증할 수 있습니다. 이러한 통합 분석 기법은 대규모 변이 유도 라이브러리 스크리닝 단계에서 유용하게 사용되며, 궁극적으로 표적 단백질의 활성 제어 및 내성 기전 규명과 같은 정밀 의학 및 차세대 바이오 의약품 설계 분야의 효율성을 수십 배 이상 혁신하는 핵심 기틀이 됩니다.

💻 필요한 컴퓨터 사양

🧠RAM

최소 NVIDIA GPU VRAM 8GB (ESMC-300M 추론용), 권장 16GB 이상 (ESMC-6B FP16 추론용). CPU 단독 구동 시 아미노산 서열 1개당 10~30초 소요되어 속도가 느림.

💾저장공간

모델 가중치 다운로드 시 1GB(300M) ~ 15GB(6B) 디스크 공간 확보 필요

설치법

### 4-1. Quick Start

```bash
pip install esm@git+https://github.com/Biohub/esm.git@main
```

### 4-2. 상세 설치

```python
# Hugging Face Transformers를 통한 모델 로드 및 추론 예시
import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer

# 1. 모델 및 토크나이저 불러오기
model_id = "biohub/ESMC-6B"  # 또는 "biohub/ESMC-300M"
model = AutoModelForMaskedLM.from_pretrained(model_id, device_map="auto").eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 2. 분석할 단백질 아미노산 서열 정의
sequences = ["MSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTTGKLPVPWPTLVTTFSYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNVYIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSALSKDPNEKRDHMVLLEFVTAAGITHGMDELYK"]

# 3. 입력 데이터 전처리 및 디바이스 텐서 전송
inputs = tokenizer(sequences, return_tensors="pt", padding=True)
inputs = {k: v.to(model.device) for k, v in inputs.items()}

# 4. 추론 모드 실행 및 단백질 임베딩/예측 로그 출력
with torch.inference_mode():
    output = model(**inputs)

print(output.logits)
```
📄 공식문서🐙 GitHub

📝 업데이트 노트

아직 업데이트 노트가 없습니다.

🧪 관련 생명의 코드

관련된 생명의 코드 글이 아직 없습니다.