Multi-agent 만능신화

2024년부터 AutoGen, crew.ai, LangGraph 같은 멀티 에이전트 프레임워크가 폭발했다. "에이전트 여러 개 협업하면 더 좋다"는 직관이 있다. 진짜로 그런가?

5개월 동안 실제로 멀티에이전트와 싱글에이전트를 같은 작업에 둘 다 적용해본 데이터로 비교해본다.

작업 카테고리 5개

1. 단일 함수 짜기 — Single 압승

"Python 함수 하나 짜줘. URL 받아서 텍스트 캡션 추출."

Single agent (Claude Code): 30초, 1번 호출
Multi agent (3 agents — researcher, coder, reviewer): 4분, 12번 호출

멀티의 모든 추가 호출이 노이즈. 결과는 single이 더 깔끔하다. 멀티는 "리서처가 뭘 찾아야 할지" 결정하는 데만 1분 쓴다.

2. 큰 코드베이스 리팩토링 — Single 우위

"이 Next.js 프로젝트의 모든 페이지를 Tailwind에서 styled-components로 마이그레이션"

Single agent (Claude Code, 1M context): 한 세션에서 전체 컨텍스트 보고 일관된 변경
Multi agent: 여러 에이전트가 다른 파일 동시 진행 → 스타일 일관성 깨짐

큰 컨텍스트가 있으면 single이 일관성 측면에서 항상 이김. 멀티는 같은 컨벤션을 다르게 해석함.

3. 다중 도메인 동시 빌드 — Multi 우위

"법률 분석 시스템 + 영상 자동화 + 트레이딩 봇 동시 빌드"

Single agent: 컨텍스트 윈도우 안에서 도메인 자주 전환 → 토큰 비용 폭증, 일관성 잃음
Multi agent (3 agents 도메인별 separate context): 각자 자기 도메인 깊게 파고, 인터페이스만 합의

내가 5개월 동안 한 게 정확히 이거였다. WILD_SNIPER + LFA + Vericum Fasti 동시 빌드 — 한 Claude 세션에서 다 하면 컨텍스트 빠르게 oversaturate. 도메인별 separate session(또는 OpenClaw 같은 별도 인스턴스)로 분리하니 깨끗.

4. 의견 합의가 필요한 분석 — Multi 우위 (특정 조건)

"이 코드를 보안 / 성능 / 가독성 관점에서 평가"

Single agent: 한 모델이 3가지 관점 다 시도 → 한 관점이 다른 관점을 압도하기 쉬움
Multi agent (3 agents 페르소나 분리: 보안 전문가 / 성능 전문가 / 코드 리뷰어): 각자 관점에서 평가 후 종합

LFA의 Mock Trial Engine이 정확히 이 패턴. 같은 사건을 다른 판사 페르소나에 던져 판결 분포 산출.

근데 조건 — 페르소나가 진짜 분리되어야 함. 단순히 "보안 관점에서 봐줘 / 성능 관점에서 봐줘"를 같은 모델 인스턴스에 던지면 single agent와 다를 게 없음.

5. 백그라운드 모니터링 + 트리거 작업 — Multi 우위

"트레이딩 봇 24/7 모니터링하면서 큰 손실 발생하면 분석 보고서 자동 생성"

Single agent: 24/7 호출 비용 폭증 (1시간마다 폴링이라도 월 $$$)
Multi agent (트리거 봇 + 분석 봇): 트리거 봇은 가벼운 모델 (Gemini Flash)으로 폴링, 조건 충족 시 분석 봇(Claude Opus) 호출

이게 agents-hq + WILD_SNIPER 조합의 기반. 트리거 분리로 비용 1/30 절감.

실제 데이터 — 5개월 멀티 vs 싱글 사용 비율

내 5개월 빌드에서:

Single agent only: 약 80% 작업 (대부분 코딩, 디버깅, 문서)
Multi agent: 약 20% 작업
- 도메인 분리 (10%)
- 모니터링 + 트리거 (5%)
- 페르소나 분리 평가 (3%)
- 기타 (2%)

멀티 에이전트의 진짜 비용

멀티는 더 많은 토큰을 쓴다 — 에이전트끼리 대화하는 메시지 자체가 컨텍스트로 누적된다. 단순 작업에서 멀티가 single 대비 5-10배 토큰을 쓴다는 측정이 종종 있다.

가치가 있을 때만 써야 한다.

권장 룰 (5개월 후 룰)

Single agent 사용:

작업이 한 도메인 안에 있음
결과 일관성이 중요함
빠른 답변이 필요함
비용에 민감함

Multi agent 사용:

다른 도메인을 동시에 진행 (도메인 분리)
백그라운드 모니터링 + 조건부 트리거 (비용 분리)
다른 관점의 합의가 필요한 평가 (페르소나 분리)
그 외에는 single이 거의 항상 빠름

흔한 함정

"Multi agent가 더 똑똑할 거다" 착각 — 같은 모델이면 더 똑똑하지 않다. 그저 더 시끄러울 뿐.
AutoGen·crew.ai 처음 써보고 모든 작업에 적용하려는 것 — 도구가 멋있어 보여서 쓰는 함정.
에이전트가 서로 끝없이 대화하는 루프 — 종료 조건 명확히 안 짜면 발생.

결론

멀티 에이전트는 모든 문제의 답이 아니다. 작업 80%는 single이 빠르다. 멀티가 정말 가치 있는 20%만 잘 식별하고 거기 집중하면, single 80% + multi 20% 조합이 최적.

5개월 후 깨달은 단순한 룰: "이 작업이 single에서 안 되는 이유가 뭐냐?"라고 자문하고 답이 명확할 때만 multi.

— Jack