AI Lab2026-04-08·5분 읽기
한국어 LLM 평가 — Claude / GPT / Gemini / Solar / Polyglot 누가 한국어 best?
한국어 작업 5종(글쓰기·코드·법률·번역·요약)을 5개 모델에 똑같이 던져서 측정. 결론은 단순하지 않음.
시작 — "한국어 잘함" 모델 신화
"한국어는 OO가 잘한다"는 말이 너무 가볍게 돈다. 진짜로 5개 모델에 같은 작업을 똑같이 던져 결과를 비교해봤다. 측정 기준은 정답률이 아니라 빌더가 실전에서 쓸 만한가.
비교 모델
| 모델 | 출시 시점 | 한국어 트레이닝 |
|---|---|---|
| Claude 4.7 (Opus) | 2025-11 | 다국어, 한국어 강함 |
| GPT-5 | 2026-01 | 다국어, 글로벌 모델 |
| Gemini 3 Pro Preview | 2026-03 | 다국어, KOSIS 학습 데이터 포함 |
| Upstage Solar 10.7B | 2024 | 한국어 특화 fine-tune |
| EleutherAI Polyglot-Ko 12.8B | 2023 | 한국어 only pretrain |
작업 5종
각 모델에 같은 프롬프트, 같은 입력으로 던졌다. 결과는 빌더 직관 평가.
작업 1 — 한국어 마케팅 글쓰기
"한국 본인소송 도와주는 AI 도구 LFA를 LinkedIn에 홍보하는 800자 글을 써줘. 협력자 톤으로 변호사 비판 금지."
| 모델 | 평가 |
|---|---|
| Claude 4.7 | best — 톤 정확, 변호사 카테고리 언어 자연 |
| GPT-5 | second — 톤 어색하게 영어 직역 느낌 살아남 |
| Gemini 3 Pro | third — 깔끔하지만 딱딱함 |
| Solar 10.7B | 재시도 필요 — 마케팅 톤이 학원 광고 같음 |
| Polyglot-Ko | 사용 불가 — 8년 전 한국어 톤 |
작업 2 — 한국어 코드 주석
Python 함수 50줄에 한국어 docstring 작성
| 모델 | 평가 |
|---|---|
| Claude 4.7 | best — 자연스러운 기술 한국어, "변수", "반환값" 등 정확 |
| GPT-5 | second — 어색한 영문 직역 ("리턴", "함수 호출") |
| Gemini 3 Pro | third — 정확하지만 너무 격식체 |
| Solar | unusable — 한국어 docstring 패턴 학습 안 됨 |
| Polyglot-Ko | unusable — code-aware 안 함 |
작업 3 — 한국 법률 텍스트 요약
1심 판결문 4쪽을 핵심 사실관계 + 판단 이유로 요약
| 모델 | 평가 |
|---|---|
| Claude 4.7 | best — 법률 용어 정확 ("기각", "각하", "강박" 구분) |
| Gemini 3 Pro | tied second — 한국 법률 용어 강함 (KOSIS + 대법원 데이터 영향) |
| GPT-5 | second — 가끔 "강박" → "압박"으로 부드럽게 함 (법률에선 다른 의미) |
| Solar | OK — 그러나 판단 이유 부분에서 추론 약함 |
| Polyglot-Ko | unusable — 긴 컨텍스트 처리 불가 |
작업 4 — 한영 번역 (기술 문서)
Anthropic API 문서 영문 → 한국어
| 모델 | 평가 |
|---|---|
| GPT-5 | best — 기술 영문 한국어화 가장 자연스러움 |
| Claude 4.7 | tied — 정확하지만 가끔 너무 격식체 |
| Gemini 3 Pro | third — "you" → "당신" 직역 |
| Solar | OK — 한국어 출력은 자연스럽지만 영문 의미 누락 가끔 |
| Polyglot-Ko | unusable — 긴 영문 입력 처리 불안정 |
작업 5 — 한국어 일상 요약 (KakaoTalk 채팅 100줄)
친구들 사이 일상 대화 100줄을 한 문단으로 요약
| 모델 | 평가 |
|---|---|
| Claude 4.7 | best — 한국 채팅 패턴(이모티콘, 줄임말, 비속어) 자연 처리 |
| Gemini 3 Pro | second — 깔끔하지만 채팅 색깔 빠짐 |
| GPT-5 | third — 어색하게 격식 올림 |
| Solar | OK — 일상 한국어는 강함 |
| Polyglot-Ko | OK — 채팅 톤은 가장 자연 (학습 데이터 분포 영향), 그러나 추론 약함 |
종합 결론
| 모델 | 빌더 권장 |
|---|---|
| Claude 4.7 | 한국어 글쓰기·기술 문서·법률·일상 요약 — 압도적 만능 |
| GPT-5 | 영문→한국어 번역 작업 |
| Gemini 3 Pro Preview | 한국 법률·통계 작업, 무료 (가성비 best) |
| Upstage Solar | 한국어 일상 대화 + 비용 민감 작업 |
| Polyglot-Ko | 일부 한국어 only 학습 케이스, 일반 빌드엔 부적합 |
빌더 권장 셋업 (한국어 워크로드 50%+)
- 메인: Claude 4.7 (Pro 100 또는 API)
- 보조: Gemini 3 Pro Preview (무료, 큰 컨텍스트 분량 작업)
- 한영 번역만: GPT-5 API ($/M token 따라 호출)
월 비용 추정:
- 1인 빌더 한국어 워크로드 50% → $100~$150/월 보통
흥미로운 발견
- Gemini 3 Pro Preview의 한국어 법률 강세 — KOSIS + 대법원 데이터 학습 영향 같음. 무료라 압도적 가성비.
- 한국어 특화 모델(Solar/Polyglot)이 더 떨어짐 — 글로벌 모델의 다국어 학습이 이미 한국어 특화 모델을 추월했음. 2024년까진 Solar 의미 있었는데 2026년 시점엔 거의 글로벌 모델만 쓰면 됨.
- GPT-5의 영문→한국어 번역 우세 — 이건 모델이 아니라 학습 데이터 분포의 문제일 가능성. OpenAI가 영문 한국어 병렬 코퍼스를 더 많이 학습한 듯.
한 줄 요약
한국어가 작업의 50% 이상이면 Claude 4.7 + Gemini 3 Pro Preview 조합. Solar/Polyglot은 2026년 시점 빌더 메인 도구로는 부족함.
— Jack