← 빌드 일지

AI Lab2026-04-21·4분 읽기

Claude Opus 4.7 vs GPT-5 vs Gemini 3 Pro — 같은 프로젝트 3개 동시 진행해본 진짜 비교

벤치마크 점수 말고, 실제 빌더 작업으로 비교. LFA 모듈 짜기 / WILD_SNIPER 디버깅 / Vericum 콘텐츠 생성 — 같은 작업 3개 모델에 동시에 던졌다.

벤치마크와 빌더의 차이

LMSys Arena, MMLU, HumanEval 같은 벤치마크 점수만 보고 모델 고르는 건 위험하다. 빌더가 실제로 마주하는 작업은 그 시험과 다르다.

3개 프로젝트의 진짜 작업 9개에 Claude Opus 4.7 / GPT-5 / Gemini 3 Pro Preview를 똑같이 던져 비교했다.

비교 작업

LFA 프로젝트 (3개)

14모듈 인터페이스 스켈레톤 짜기 (큰 컨텍스트)
Mock Trial Engine 멀티에이전트 설계 (논리 추상화)
PII redaction 정규식 작성 (정확성)

WILD_SNIPER 프로젝트 (3개)

V4.1 거래 로그 CSV 분석 (데이터 처리)
SAFE-15 블랙리스트 로직 디버깅 (코드 추적)
백테스트 결과 markdown 보고서 작성 (구조화)

Vericum Fasti 프로젝트 (3개)

한국어 60초 영상 스크립트 (창의 글쓰기)
사실 검증 (날짜·인물·금액)
YouTube 메타데이터 (제목·설명·태그)

결과 표

✅ = 가장 잘함, 🟡 = 평균, ❌ = 부족

작업	Claude 4.7	GPT-5	Gemini 3 Pro
1. 14모듈 인터페이스 (큰 컨텍스트)	✅	🟡	✅
2. 멀티에이전트 설계 (논리)	✅	🟡	🟡
3. PII redaction 정규식	✅	✅	🟡
4. CSV 분석	🟡	✅	✅
5. 코드 디버깅	✅	🟡	🟡
6. 보고서 markdown	✅	🟡	🟡
7. 한국어 스크립트	✅	🟡	✅
8. 사실 검증	🟡	✅	✅
9. YouTube 메타	🟡	✅	🟡
합계 ✅	6	3	3

카테고리별 강점

Claude Opus 4.7 — 빌더 작업의 만능

큰 컨텍스트 + 일관된 voice + 도구 사용 + 한국어 → 풀 스택 빌더에 압도적
LFA 14모듈 한 번에 짜는 것 같은 큰 구조 작업에서 압승
디버깅에서 코드 추적 → 가설 → 검증 → 결론 흐름이 가장 깔끔

GPT-5 — 단발성 정확성

사실 검증 / 데이터 처리 / 메타데이터 같은 closed-task 정확성 우위
짧은 답이 필요한 작업에 빠름
한국어 글쓰기는 어색한 부분 있음

Gemini 3 Pro Preview — 한국어 + 큰 컨텍스트 + 무료

한국어 작업에서 가장 자연스러운 부분 있음 (특히 일상·창의)
1M context로 LFA 같은 대규모 분석 가능
무료라는 가성비 — 하루 종일 쓰면 사실상 다른 모델 안 사도 됨

빌더 시나리오별 모델 권장

시나리오 A — 새 프로젝트 0→1 빌드

메인: Claude Opus 4.7

이유: 큰 컨텍스트, 일관된 코드 구조, 도구 사용 강함. 14모듈 LFA 같은 작업에서 GPT-5보다 명백히 강함.

시나리오 B — 기존 코드베이스 단발 수정

메인: GPT-5

이유: 빠른 답, 짧은 코드 수정에 강함. 코드베이스 전체 컨텍스트 필요 없는 단발 task에 효율적.

시나리오 C — 한국어 / 큰 분석 작업

메인: Gemini 3 Pro Preview

이유: 한국어 자연스러움 + 1M context + 무료. 비용 0으로 시작하기에 좋고, 결과 quality도 충분.

시나리오 D — 사실 검증·데이터 처리

메인: GPT-5

이유: closed-question에서 정확도 우위. Vericum Fasti 사실 검증 같은 작업.

시나리오 E — 멀티 모델 cross-check

3개 모두

이유: 한 모델의 답을 다른 두 모델에 검증 시키면 hallucination 감지 가능. 중요한 결정은 cross-check가 정답.

빌더의 실용 룰 (5개월 후)

메인: Claude Opus 4.7 (Pro 100 또는 Pro 5)
보조 1: Gemini 3 Pro Preview (무료, 큰 컨텍스트 작업)
보조 2: GPT-5 (사실 검증, 짧은 task — API 호출당 결제)
큰 결정은 3개 모두에 던져 cross-check

이 셋업으로 5개월 7개 빌드 가능. 단일 모델로 가는 게 아니라 다중 모델 활용이 중요.

흥미로운 발견

GPT-5의 한국어가 생각보다 약함 — 영문 직역 느낌이 가끔 살아남
Gemini 3 Pro의 무료 가치 — 거의 모든 작업에서 paid 모델과 비슷한 quality
Claude 4.7의 도구 사용 강세 — Bash / Edit / 다중 파일 동시 처리에서 압도

한 줄 결론

벤치마크는 무시. 본인의 프로젝트 3-5개 작업에 직접 던져보고 결정. 5개월 빌드 데이터 기준 — Claude 메인 + Gemini 보조 + GPT 단발이 인디 빌더의 sweet spot.

— Jack