Claude Opus 4.7 vs GPT-5 vs Gemini 3 Pro — 같은 프로젝트 3개 동시 진행해본 진짜 비교
벤치마크 점수 말고, 실제 빌더 작업으로 비교. LFA 모듈 짜기 / WILD_SNIPER 디버깅 / Vericum 콘텐츠 생성 — 같은 작업 3개 모델에 동시에 던졌다.
벤치마크와 빌더의 차이
LMSys Arena, MMLU, HumanEval 같은 벤치마크 점수만 보고 모델 고르는 건 위험하다. 빌더가 실제로 마주하는 작업은 그 시험과 다르다.
3개 프로젝트의 진짜 작업 9개에 Claude Opus 4.7 / GPT-5 / Gemini 3 Pro Preview를 똑같이 던져 비교했다.
비교 작업
LFA 프로젝트 (3개)
- 14모듈 인터페이스 스켈레톤 짜기 (큰 컨텍스트)
- Mock Trial Engine 멀티에이전트 설계 (논리 추상화)
- PII redaction 정규식 작성 (정확성)
WILD_SNIPER 프로젝트 (3개)
- V4.1 거래 로그 CSV 분석 (데이터 처리)
- SAFE-15 블랙리스트 로직 디버깅 (코드 추적)
- 백테스트 결과 markdown 보고서 작성 (구조화)
Vericum Fasti 프로젝트 (3개)
- 한국어 60초 영상 스크립트 (창의 글쓰기)
- 사실 검증 (날짜·인물·금액)
- YouTube 메타데이터 (제목·설명·태그)
결과 표
✅ = 가장 잘함, 🟡 = 평균, ❌ = 부족
| 작업 | Claude 4.7 | GPT-5 | Gemini 3 Pro |
|---|---|---|---|
| 1. 14모듈 인터페이스 (큰 컨텍스트) | ✅ | 🟡 | ✅ |
| 2. 멀티에이전트 설계 (논리) | ✅ | 🟡 | 🟡 |
| 3. PII redaction 정규식 | ✅ | ✅ | 🟡 |
| 4. CSV 분석 | 🟡 | ✅ | ✅ |
| 5. 코드 디버깅 | ✅ | 🟡 | 🟡 |
| 6. 보고서 markdown | ✅ | 🟡 | 🟡 |
| 7. 한국어 스크립트 | ✅ | 🟡 | ✅ |
| 8. 사실 검증 | 🟡 | ✅ | ✅ |
| 9. YouTube 메타 | 🟡 | ✅ | 🟡 |
| 합계 ✅ | 6 | 3 | 3 |
카테고리별 강점
Claude Opus 4.7 — 빌더 작업의 만능
- 큰 컨텍스트 + 일관된 voice + 도구 사용 + 한국어 → 풀 스택 빌더에 압도적
- LFA 14모듈 한 번에 짜는 것 같은 큰 구조 작업에서 압승
- 디버깅에서 코드 추적 → 가설 → 검증 → 결론 흐름이 가장 깔끔
GPT-5 — 단발성 정확성
- 사실 검증 / 데이터 처리 / 메타데이터 같은 closed-task 정확성 우위
- 짧은 답이 필요한 작업에 빠름
- 한국어 글쓰기는 어색한 부분 있음
Gemini 3 Pro Preview — 한국어 + 큰 컨텍스트 + 무료
- 한국어 작업에서 가장 자연스러운 부분 있음 (특히 일상·창의)
- 1M context로 LFA 같은 대규모 분석 가능
- 무료라는 가성비 — 하루 종일 쓰면 사실상 다른 모델 안 사도 됨
빌더 시나리오별 모델 권장
시나리오 A — 새 프로젝트 0→1 빌드
메인: Claude Opus 4.7
이유: 큰 컨텍스트, 일관된 코드 구조, 도구 사용 강함. 14모듈 LFA 같은 작업에서 GPT-5보다 명백히 강함.
시나리오 B — 기존 코드베이스 단발 수정
메인: GPT-5
이유: 빠른 답, 짧은 코드 수정에 강함. 코드베이스 전체 컨텍스트 필요 없는 단발 task에 효율적.
시나리오 C — 한국어 / 큰 분석 작업
메인: Gemini 3 Pro Preview
이유: 한국어 자연스러움 + 1M context + 무료. 비용 0으로 시작하기에 좋고, 결과 quality도 충분.
시나리오 D — 사실 검증·데이터 처리
메인: GPT-5
이유: closed-question에서 정확도 우위. Vericum Fasti 사실 검증 같은 작업.
시나리오 E — 멀티 모델 cross-check
3개 모두
이유: 한 모델의 답을 다른 두 모델에 검증 시키면 hallucination 감지 가능. 중요한 결정은 cross-check가 정답.
빌더의 실용 룰 (5개월 후)
- 메인: Claude Opus 4.7 (Pro 100 또는 Pro 5)
- 보조 1: Gemini 3 Pro Preview (무료, 큰 컨텍스트 작업)
- 보조 2: GPT-5 (사실 검증, 짧은 task — API 호출당 결제)
- 큰 결정은 3개 모두에 던져 cross-check
이 셋업으로 5개월 7개 빌드 가능. 단일 모델로 가는 게 아니라 다중 모델 활용이 중요.
흥미로운 발견
- GPT-5의 한국어가 생각보다 약함 — 영문 직역 느낌이 가끔 살아남
- Gemini 3 Pro의 무료 가치 — 거의 모든 작업에서 paid 모델과 비슷한 quality
- Claude 4.7의 도구 사용 강세 — Bash / Edit / 다중 파일 동시 처리에서 압도
한 줄 결론
벤치마크는 무시. 본인의 프로젝트 3-5개 작업에 직접 던져보고 결정. 5개월 빌드 데이터 기준 — Claude 메인 + Gemini 보조 + GPT 단발이 인디 빌더의 sweet spot.
— Jack