시작 — "한국어 잘함" 모델 신화

"한국어는 OO가 잘한다"는 말이 너무 가볍게 돈다. 진짜로 5개 모델에 같은 작업을 똑같이 던져 결과를 비교해봤다. 측정 기준은 정답률이 아니라 빌더가 실전에서 쓸 만한가.

비교 모델

각 모델에 같은 프롬프트, 같은 입력으로 던졌다. 결과는 빌더 직관 평가.

"한국 본인소송 도와주는 AI 도구 LFA를 LinkedIn에 홍보하는 800자 글을 써줘. 협력자 톤으로 변호사 비판 금지."

Python 함수 50줄에 한국어 docstring 작성

모델	평가
Claude 4.7	best — 자연스러운 기술 한국어, "변수", "반환값" 등 정확
GPT-5	second — 어색한 영문 직역 ("리턴", "함수 호출")
Gemini 3 Pro	third — 정확하지만 너무 격식체
Solar	unusable — 한국어 docstring 패턴 학습 안 됨
Polyglot-Ko	unusable — code-aware 안 함

1심 판결문 4쪽을 핵심 사실관계 + 판단 이유로 요약

모델	평가
Claude 4.7	best — 법률 용어 정확 ("기각", "각하", "강박" 구분)
Gemini 3 Pro	tied second — 한국 법률 용어 강함 (KOSIS + 대법원 데이터 영향)
GPT-5	second — 가끔 "강박" → "압박"으로 부드럽게 함 (법률에선 다른 의미)
Solar	OK — 그러나 판단 이유 부분에서 추론 약함
Polyglot-Ko	unusable — 긴 컨텍스트 처리 불가

Anthropic API 문서 영문 → 한국어

친구들 사이 일상 대화 100줄을 한 문단으로 요약

모델	평가
Claude 4.7	best — 한국 채팅 패턴(이모티콘, 줄임말, 비속어) 자연 처리
Gemini 3 Pro	second — 깔끔하지만 채팅 색깔 빠짐
GPT-5	third — 어색하게 격식 올림
Solar	OK — 일상 한국어는 강함
Polyglot-Ko	OK — 채팅 톤은 가장 자연 (학습 데이터 분포 영향), 그러나 추론 약함

월 비용 추정:

Gemini 3 Pro Preview의 한국어 법률 강세 — KOSIS + 대법원 데이터 학습 영향 같음. 무료라 압도적 가성비.
한국어 특화 모델(Solar/Polyglot)이 더 떨어짐 — 글로벌 모델의 다국어 학습이 이미 한국어 특화 모델을 추월했음. 2024년까진 Solar 의미 있었는데 2026년 시점엔 거의 글로벌 모델만 쓰면 됨.
GPT-5의 영문→한국어 번역 우세 — 이건 모델이 아니라 학습 데이터 분포의 문제일 가능성. OpenAI가 영문 한국어 병렬 코퍼스를 더 많이 학습한 듯.

한국어가 작업의 50% 이상이면 Claude 4.7 + Gemini 3 Pro Preview 조합. Solar/Polyglot은 2026년 시점 빌더 메인 도구로는 부족함.

— Jack