Hugging Face
AI/ML 모델·데이터셋·앱의 GitHub — 200만+ 모델, 35만+ 데이터셋, Spaces 데모, Inference API 통합 hub
Hugging Face는 2016년 Clement Delangue·Julien Chaumond·Thomas Wolf가 공동창업한 오픈소스 AI 커뮤니티이자 플랫폼입니다. 한 줄로 표현하면 "AI 모델·데이터셋·데모 앱의 GitHub"이라고 할 수 있어요. 200만+ 사전학습 모델, 35만+ 데이터셋, 65만+ Spaces 데모가 한 사이트에 모여 있고, Transformers·Diffusers·Datasets·Accelerate 같은 표준 라이브러리도 이 회사가 만들고 유지합니다. 기존 AI 모델 공유는 (1) 논문 저자 GitHub repo가 학습 코드만 제공 → 가중치는 별도 요청, (2) Google Drive·Dropbox 같은 비전문 저장소에 가중치 산재, (3) license·메타데이터 표준 없음, (4) 추론은 사용자가 직접 환경 구축 같은 비효율의 연속이었어요. Hugging Face Hub는 git-lfs 기반 가중치 버전 관리 + Model Card 표준화(README.md + 메타 YAML) + Inference API(:huggingface.co/api/...)로 "모델 페이지 방문 → Run 버튼 클릭 → 즉시 추론" 흐름을 만들었습니다. 마치 "npm·PyPI·Docker Hub가 SW 패키지 표준화했듯, HF는 AI 모델 표준화"인 셈이죠. 생명공학 연구자 관점에서는 (1) BioGPT·BioBERT·ESMFold·ProtGPT2·ChemBERTa 같은 도메인 특화 모델을 코드 5줄로 즉시 사용, (2) PubMedQA·MedQA·BC5CDR 같은 의료 NLP 벤치마크 데이터셋 통합, (3) Spaces로 만든 단백질 구조 시각화·약물 상호작용 예측 데모 즉시 fork·수정, (4) Inference API로 GPU 없이도 클라우드 추론 (월 무료 quota + 유료 dedicated endpoint), (5) AutoTrain으로 자체 데이터셋에 fine-tune 자동화까지 가능해요. Transformers 라이브러리만 익히면 SOTA 모델 90%를 통합된 API로 다룰 수 있습니다. Ollama·LM Studio 같은 로컬 실행 도구와 병렬로 쓰면 강력해요. HF에서 GGUF·safetensors 가중치 다운 → Ollama로 로컬 양자화 추론 / HF Inference API로 대형 모델 클라우드 호출 / Spaces에 자체 데모 deploy 같은 조합. PRO 구독(/월)은 빠른 inference + 더 많은 Spaces GPU 시간 제공.
💻 필요한 컴퓨터 사양
클라우드 사용 시 0 (Inference API는 브라우저만). 로컬 다운로드 모델 사용 시 모델 크기에 따라 8-128GB+
클라우드 0 / 로컬 GPU 사용 시 4GB+ (소형 모델) ~ 80GB+ (대형 LLM). Transformers는 device_map="auto"로 다중 GPU 자동 분산
로컬 캐시 위치 ~/.cache/huggingface/hub 기본. 대형 모델 다운로드 시 100GB+ 권장. HF_HOME 환경변수로 위치 변경 가능
⚡ 설치법
# Python (Transformers 핵심 라이브러리)
pip install transformers datasets accelerate
# 1. 모델 로드 + 추론 (3줄)
from transformers import pipeline
pipe = pipeline("text-generation", model="meta-llama/Llama-3.3-70B-Instruct")
print(pipe("단백질 구조 예측에서 AlphaFold와 ESMFold 차이는?"))
# 2. Inference API (GPU 없이 클라우드 호출)
import requests
API_URL = "https://api-inference.huggingface.co/models/microsoft/biogpt"
headers = {"Authorization": f"Bearer {HF_TOKEN}"}
r = requests.post(API_URL, headers=headers, json={"inputs": "COVID-19 mortality is associated with"})
# 3. 데이터셋 로드
from datasets import load_dataset
ds = load_dataset("qiaojin/PubMedQA", "pqa_labeled")
# 4. HF CLI로 모델 다운 (gguf 같은 가중치 직접)
pip install huggingface_hub
huggingface-cli login
huggingface-cli download bartowski/Llama-3.3-70B-Instruct-GGUF --include "*Q4_K_M*" --local-dir ./models/llama-3.3-70b
# 5. Spaces 데모 deploy (Gradio)
pip install gradio
# app.py 작성 후
gradio deploy📝 업데이트 노트
아직 업데이트 노트가 없습니다.
🧪 관련 생명의 코드
관련된 생명의 코드 글이 아직 없습니다.