← 빌드 일지
AI Lab2026-04-08·5분 읽기

한국어 LLM 평가 — Claude / GPT / Gemini / Solar / Polyglot 누가 한국어 best?

한국어 작업 5종(글쓰기·코드·법률·번역·요약)을 5개 모델에 똑같이 던져서 측정. 결론은 단순하지 않음.

시작 — "한국어 잘함" 모델 신화

"한국어는 OO가 잘한다"는 말이 너무 가볍게 돈다. 진짜로 5개 모델에 같은 작업을 똑같이 던져 결과를 비교해봤다. 측정 기준은 정답률이 아니라 빌더가 실전에서 쓸 만한가.

비교 모델

모델출시 시점한국어 트레이닝
Claude 4.7 (Opus)2025-11다국어, 한국어 강함
GPT-52026-01다국어, 글로벌 모델
Gemini 3 Pro Preview2026-03다국어, KOSIS 학습 데이터 포함
Upstage Solar 10.7B2024한국어 특화 fine-tune
EleutherAI Polyglot-Ko 12.8B2023한국어 only pretrain

작업 5종

각 모델에 같은 프롬프트, 같은 입력으로 던졌다. 결과는 빌더 직관 평가.

작업 1 — 한국어 마케팅 글쓰기

"한국 본인소송 도와주는 AI 도구 LFA를 LinkedIn에 홍보하는 800자 글을 써줘. 협력자 톤으로 변호사 비판 금지."

모델평가
Claude 4.7best — 톤 정확, 변호사 카테고리 언어 자연
GPT-5second — 톤 어색하게 영어 직역 느낌 살아남
Gemini 3 Prothird — 깔끔하지만 딱딱함
Solar 10.7B재시도 필요 — 마케팅 톤이 학원 광고 같음
Polyglot-Ko사용 불가 — 8년 전 한국어 톤

작업 2 — 한국어 코드 주석

Python 함수 50줄에 한국어 docstring 작성

모델평가
Claude 4.7best — 자연스러운 기술 한국어, "변수", "반환값" 등 정확
GPT-5second — 어색한 영문 직역 ("리턴", "함수 호출")
Gemini 3 Prothird — 정확하지만 너무 격식체
Solarunusable — 한국어 docstring 패턴 학습 안 됨
Polyglot-Kounusable — code-aware 안 함

작업 3 — 한국 법률 텍스트 요약

1심 판결문 4쪽을 핵심 사실관계 + 판단 이유로 요약

모델평가
Claude 4.7best — 법률 용어 정확 ("기각", "각하", "강박" 구분)
Gemini 3 Protied second — 한국 법률 용어 강함 (KOSIS + 대법원 데이터 영향)
GPT-5second — 가끔 "강박" → "압박"으로 부드럽게 함 (법률에선 다른 의미)
SolarOK — 그러나 판단 이유 부분에서 추론 약함
Polyglot-Kounusable — 긴 컨텍스트 처리 불가

작업 4 — 한영 번역 (기술 문서)

Anthropic API 문서 영문 → 한국어

모델평가
GPT-5best — 기술 영문 한국어화 가장 자연스러움
Claude 4.7tied — 정확하지만 가끔 너무 격식체
Gemini 3 Prothird — "you" → "당신" 직역
SolarOK — 한국어 출력은 자연스럽지만 영문 의미 누락 가끔
Polyglot-Kounusable — 긴 영문 입력 처리 불안정

작업 5 — 한국어 일상 요약 (KakaoTalk 채팅 100줄)

친구들 사이 일상 대화 100줄을 한 문단으로 요약

모델평가
Claude 4.7best — 한국 채팅 패턴(이모티콘, 줄임말, 비속어) 자연 처리
Gemini 3 Prosecond — 깔끔하지만 채팅 색깔 빠짐
GPT-5third — 어색하게 격식 올림
SolarOK — 일상 한국어는 강함
Polyglot-KoOK — 채팅 톤은 가장 자연 (학습 데이터 분포 영향), 그러나 추론 약함

종합 결론

모델빌더 권장
Claude 4.7한국어 글쓰기·기술 문서·법률·일상 요약 — 압도적 만능
GPT-5영문→한국어 번역 작업
Gemini 3 Pro Preview한국 법률·통계 작업, 무료 (가성비 best)
Upstage Solar한국어 일상 대화 + 비용 민감 작업
Polyglot-Ko일부 한국어 only 학습 케이스, 일반 빌드엔 부적합

빌더 권장 셋업 (한국어 워크로드 50%+)

  • 메인: Claude 4.7 (Pro 100 또는 API)
  • 보조: Gemini 3 Pro Preview (무료, 큰 컨텍스트 분량 작업)
  • 한영 번역만: GPT-5 API ($/M token 따라 호출)

월 비용 추정:

  • 1인 빌더 한국어 워크로드 50% → $100~$150/월 보통

흥미로운 발견

  1. Gemini 3 Pro Preview의 한국어 법률 강세 — KOSIS + 대법원 데이터 학습 영향 같음. 무료라 압도적 가성비.
  2. 한국어 특화 모델(Solar/Polyglot)이 더 떨어짐 — 글로벌 모델의 다국어 학습이 이미 한국어 특화 모델을 추월했음. 2024년까진 Solar 의미 있었는데 2026년 시점엔 거의 글로벌 모델만 쓰면 됨.
  3. GPT-5의 영문→한국어 번역 우세 — 이건 모델이 아니라 학습 데이터 분포의 문제일 가능성. OpenAI가 영문 한국어 병렬 코퍼스를 더 많이 학습한 듯.

한 줄 요약

한국어가 작업의 50% 이상이면 Claude 4.7 + Gemini 3 Pro Preview 조합. Solar/Polyglot은 2026년 시점 빌더 메인 도구로는 부족함.

— Jack

Wildeconforce

매일 만들고, 매일 분석하고, 매일 기록합니다.
© 2026 wildeconforce · build-in-public

이 사이트는 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.