BioPlayground

🧬
← AI Tools
ragadvanced

Antfly

Antfly는 Antfly DB 팀이 2026년 3월에 공개한 분산 하이브리드 검색 엔진이다. GPT가 어떤 텍스트든 이해하듯, Antfly는 텍스트·이미지·오디오·영상 등 어떤 형태의 데이터든 하나의 엔진에서 색인하고 검색할 수 있게 해 준다. etcd의 Raft 합의 알고리즘과 CockroachDB의 Pebble 스토리지 엔진 위에 구축되었으며, BM25 전문 검색(full-text search), 밀집 벡터 유사도(dense vector similarity), 그래프 탐색(graph traversal)을 단일 쿼리로 융합하는

Antfly는 Antfly DB 팀이 2026년 3월에 공개한 분산 하이브리드 검색 엔진이다. GPT가 어떤 텍스트든 이해하듯, Antfly는 텍스트·이미지·오디오·영상 등 어떤 형태의 데이터든 하나의 엔진에서 색인하고 검색할 수 있게 해 준다. etcd의 Raft 합의 알고리즘과 CockroachDB의 Pebble 스토리지 엔진 위에 구축되었으며, BM25 전문 검색(full-text search), 밀집 벡터 유사도(dense vector similarity), 그래프 탐색(graph traversal)을 단일 쿼리로 융합하는 하이브리드 검색을 핵심 아이덴티티로 삼는다. 홈페이지 슬로건 "Self-learning Retrieval for Agents"가 시사하듯, AI 에이전트가 방대한 데이터에서 정확한 바늘을 찾아내는 것을 목표로 설계되었다. 기존에 벡터 검색을 도입하려면 임베딩 생성을 위한 외부 API(OpenAI·Cohere 등), 전문 검색을 위한 Elasticsearch, 지식 그래프를 위한 Neo4j 등 여러 시스템을 조합해야 하는 멀티 인프라 복잡성이 있었다. Antfly는 이 세 가지를 싱글 바이너리 안에 통합한다. 내장 추론 엔진을 통해 임베딩 생성, 문서 청킹(chunking), 크로스 인코더 리랭킹(cross-encoder reranking)까지 외부 API 호출 없이 로컬에서 처리할 수 있다. 멀티 Raft 아키텍처로 메타데이터 합의 그룹과 샤드별 스토리지 합의 그룹이 분리되어, 특정 샤드 장애가 전체 클러스터에 전파되지 않는 장애 격리(fault isolation)를 제공한다. SPANN 기반 벡터 인덱싱에 RaBitQ 양자화를 적용하고, HTTP/3(QUIC) 프로토콜을 지원하여 대용량 데이터셋에서도 낮은 지연시간을 유지한다. 생명과학 연구에서 Antfly는 논문·특허·임상 문서·현미경 이미지 등 이질적 데이터 소스를 단일 검색 인프라로 통합하는 데 적합하다. 예를 들어 PubMed 논문 텍스트와 병리 조직 이미지를 동일 컬렉션에 적재한 뒤, "EGFR 변이와 관련된 폐암 조직 패턴"이라는 자연어 쿼리로 텍스트와 이미지를 동시에 하이브리드 검색할 수 있다. 내장 RAG 에이전트 기능을 활용하면 검색 결과를 LLM에 자동 전달하여 요약·추론·후속 질문까지 스트리밍으로 처리할 수 있으며, 그래프 인덱스를 통해 유전자-질환-약물 간 관계를 자동 추출하고 탐색하는 지식 그래프 파이프라인을 별도 인프라 없이 구축할 수 있다. PostgreSQL 확장(pgaf)을 통해 기존 SQL 워크플로우와도 자연스럽게 연동되고, MCP 서버 및 A2A 프로토콜 지원으로 AI 에이전트 생태계와의 통합도 용이하다.

💻 필요한 컴퓨터 사양

🧠RAM

GPU 불필요 — 내장 추론 엔진이 CPU 기반 임베딩 생성 지원. GPU 활용 시 Ollama 등 외부 임베딩 제공자 연동 가능

💾저장공간

최소 20GB (Swarm 모드), 데이터셋 규모에 비례 확장

⚡ 설치법

### 4-1. Quick Start

```bash
# macOS (Homebrew)
brew install antflydb/taps/antfly

# Linux / 범용 (설치 스크립트)
curl -fsSL https://releases.antfly.io/antfly/latest/install.sh | sh

# Docker
docker run -p 8080:8080 ghcr.io/antflydb/antfly:omni
```

### 4-2. 상세 설치

```bash
# 1. 설치 후 버전 확인
antfly --version

# 2. 임베딩 모델 풀 및 Swarm 모드 시작
antfly swarm

# 3. 테이블 생성 (임베딩 인덱스 포함)
antfly table create --table my_docs \
  --index '{"type":"embeddings","embedder":{"provider":"termite","model":"BAAI/bge-small-en-v1.5"},"chunker":{"target_tokens":200,"overlap_tokens":25}}'

# 4. 데이터 로드
antfly load --table my_docs --file documents.json --id-field id

# 5. 하이브리드 검색
antfly query --table my_docs \
  --full-text-search 'body:"target gene"' \
  --semantic-search "cancer biomarker discovery" \
  --limit 10

# 6. 웹 대시보드 접속
# http://localhost:8080 (Antfarm 대시보드)
```

🧬 바이오 활용

🔬

🔬 바이오 논문·병리 이미지 멀티모달 검색

PubMed 논문 10만 건과 조직 병리 이미지를 동일 컬렉션에 적재, CLIP 임베딩과 BM25 하이브리드 검색으로 "BRCA1 변이 유방암 조직" 같은 텍스트+이미지 동시 검색 수행. 크로스 인코더 리랭킹으로 상위 10건 정밀도를 높여, 신약 타겟 발굴 문헌 조사 시간을 수일에서 수분으로 단축

🧬

🧬 유전자-질환-약물 지식 그래프 자동 구축

DrugBank·OMIM 등 공개 데이터베이스를 Antfly 그래프 인덱스에 적재하고, 자동 관계 추출(relationship extraction)로 유전자→질환→약물 경로를 탐색. "TP53 관련 모든 승인 약물과 임상시험 현황" 같은 그래프 쿼리를 BM25+벡터 필터와 결합한 다차원 검색

💊

🏥 임상시험 규제 문서 RAG 파이프라인

FDA 가이던스·ICH 가이드라인·임상시험 프로토콜 문서를 target_tokens=200으로 청킹 후, 내장 RAG 에이전트로 "Phase III 시험에서 biomarker-driven enrichment 전략 사례"를 스트리밍 응답으로 즉시 확인. 규제 문서 검토 및 제출 준비 워크플로우 자동화

📄 공식문서🐙 GitHub

📝 업데이트 노트

아직 업데이트 노트가 없습니다.

🧪 관련 생명의 코드

관련된 생명의 코드 글이 아직 없습니다.