When should I use ml-intern?

논문 탐색부터 포스트트레이닝까지 ML 워크플로우 전자동화 에이전트

ml-intern | AI Tools - BioPlayground

- End-to-end ML 포스트트레이닝 자동화: arXiv 논문 탐색 → 인용 그래프(citation graph) 순회 → Hugging Face Hub 데이터셋 검색·품질 검사·포맷 변환 → SFT/GRPO 학습 스크립트 실행 → 평가 결과 해석 → 실패 진단(reward collapse 등)까지 전체 ML 연구 루프를 자율 수행 - ContextManager (170k 토큰 자동 압축): 메시지 히스토리를 170k 토큰 임계에서 자동 압축(auto-compaction)하여 장시간 에이전트 세션을 안정적으로 유지. HF 데이터셋으로 세션 트레이스 자동 업로드 - Doom Loop Detector: 반복적 도구 호출 패턴을 감지하여 교정 프롬프트를 주입, 에이전트가 동일 실패를 무한 반복하는 것을 방지. 최대 300회 반복 제한과 결합하여 안전한 자율 실행 보장 - ToolRouter: Hugging Face docs/repos/datasets 검색, arXiv 논문 리딩, GitHub 코드 검색, 샌드박스 실행, 플래닝, MCP 서버 도구를 단일 라우팅 레이어로 통합 - 유료·파괴적 작업 사전 승인: GPU Job 실행(Hugging Face Jobs) 및 파괴적 명령은 사용자가 명시적으로 승인한 경우에만 실행. Auto-approval 워크플로우 설정 가능 - 다중 LLM 백엔드: Claude(FAL-AI 경유), GPT(OpenAI/FAL-AI), HF Router 모델(MiniMax, Kimi, GLM, DeepSeek), 로컬 모델(Ollama, vLLM, LM Studio, LlamaCPP) 지원 - Trackio 실험 추적 + Slack 알림: Hub 네이티브 실험 트래커 Trackio로 학습 메트릭 모니터링, Slack 게이트웨이로 진행 상황 알림

💻 필요한 컴퓨터 사양

🧠RAM

에이전트 자체는 CPU 전용 (LLM 추론은 외부 API 위임). 로컬 모델(Ollama/vLLM) 구동 시 모델 크기에 따라 8-24GB. SFT/GRPO 학습 실행은 H100 80GB급 권장 (Hugging Face Jobs로 클라우드 위임 가능)

💾저장공간

패키지 자체 ~250MB. 학습 데이터셋·체크포인트 포함 시 프로젝트당 10-50GB

⚡ 설치법

### 4-1. Quick Start

```bash
pip install ml-intern
```

### 4-2. 상세 설치 (개발 모드)

```bash
git clone https://github.com/huggingface/ml-intern.git
cd ml-intern
uv sync
uv tool install -e .
```

### 4-3. 환경 변수 설정

```bash
export HF_TOKEN="hf_..."            # Hugging Face 토큰 (필수)
export ANTHROPIC_API_KEY="sk-..."    # Anthropic 모델 사용 시
export OPENAI_API_KEY="sk-..."       # OpenAI 모델 사용 시
export GITHUB_TOKEN="ghp_..."        # GitHub 코드 검색 시 (선택)
```

### 4-4. 기본 사용

```bash
# Interactive 모드
ml-intern

# Headless 모드 (단일 프롬프트)
ml-intern --headless --task "Qwen3-1.7B를 GPQA 벤치마크에서 개선하라"

# 선택 의존성
pip install ml-intern[eval]   # 평가 도구
pip install ml-intern[dev]    # 개발 도구
pip install ml-intern[all]    # 전체
```

코드 스타일은 Ruff를 사용하며, LiteLLM을 통해 로컬 모델 엔드포인트와 연동한다.

🧬 바이오 활용

🔬

LLM 포스트트레이닝 자동화

베이스 모델(예: Qwen3-1.7B)을 지정하면, 에이전트가 자율적으로 관련 논문을 검색하고 적합한 학습 데이터셋을 Hub에서 탐색·검수한 뒤, SFT 또는 GRPO 학습을 실행하고 GPQA 같은 벤치마크로 평가까지 수행. PostTrainBench 기준 10시간 단일 H100 GPU 세션에서 Qwen3-1.7B GPQA 점수를 약 10% 베이스라인에서 32%까지 향상시킨 사례 보고

🧬

도메인 특화 파인튜닝 연구

의료·수학·법률 등 특정 도메인에 대해 에이전트가 arXiv에서 최신 방법론(GRPO, DPO 등) 논문을 읽고, 인용 그래프를 따라 관련 후속 연구를 탐색한 뒤, 해당 기법을 구현하여 학습에 적용. 실패 시 reward collapse 같은 원인을 진단하고 엣지 케이스 합성 데이터를 생성하여 재시도

💊

논문 기반 재현 실험 + 대규모 평가

arXiv 논문의 방법론 섹션과 인용 그래프를 순회하여 참조 데이터셋을 자동 수집, HF Hub에서 매칭 데이터를 찾아 학습 스크립트를 생성하고 실험을 재현. 여러 체크포인트나 하이퍼파라미터 조합에 대해 Trackio로 결과를 기록·비교하여 최적 구성 식별

BioPlayground

ml-intern