개요

Claude는 강력한 다국어 기능을 보여주며, 특히 여러 언어에 걸친 제로샷 작업에서 뛰어난 성능을 발휘합니다. 이 모델은 널리 사용되는 언어와 자원이 적은 언어 모두에서 일관된 상대적 성능을 유지하여 다국어 애플리케이션에 신뢰할 수 있는 선택이 됩니다.

아래 벤치마크된 언어 외에도 Claude는 많은 언어에서 능력을 발휘합니다. 귀하의 특정 사용 사례와 관련된 모든 언어로 테스트해 보시기를 권장합니다.

성능 데이터

아래는 Claude 4, Claude 3.7 Sonnet 및 Claude 3.5 모델의 다양한 언어에 대한 제로샷 체인-오브-소트 평가 점수로, 영어 성능(100%)에 대한 상대적 비율로 표시됩니다:

언어Claude Opus 41Claude Sonnet 41Claude Sonnet 3.71Claude Sonnet 3.5 v2Claude Haiku 3.5
영어 (기준, 100%로 고정)100%100%100%100%100%
스페인어98.0%97.5%97.6%96.9%94.6%
포르투갈어 (브라질)97.3%97.2%97.3%96.0%94.6%
이탈리아어97.5%97.3%97.2%95.6%95.0%
프랑스어97.7%97.1%96.9%96.2%95.3%
인도네시아어97.2%96.2%96.3%94.0%91.2%
독일어97.1%94.7%96.2%94.0%92.5%
아랍어96.9%96.1%95.4%92.5%84.7%
중국어 (간체)96.7%95.9%95.3%92.8%90.9%
한국어96.4%95.9%95.2%92.8%89.1%
일본어96.2%95.6%95.0%92.7%90.8%
힌디어96.7%95.8%94.2%89.3%80.1%
벵골어95.2%94.4%92.4%85.9%72.9%
스와힐리어89.5%87.1%89.2%83.9%64.7%
요루바어78.9%76.4%76.7%64.9%46.1%

1 확장 사고 포함.

이러한 지표는 OpenAI의 simple-evals 저장소에 문서화된 대로 전문 인간 번역가가 14개의 추가 언어로 번역한 MMLU(Massive Multitask Language Understanding) 영어 테스트 세트를 기반으로 합니다. 이 평가에 인간 번역가를 활용하는 것은 특히 디지털 자원이 적은 언어에서 고품질 번역을 보장하는 데 중요합니다.


모범 사례

다국어 콘텐츠 작업 시:

  1. 명확한 언어 컨텍스트 제공: Claude는 대상 언어를 자동으로 감지할 수 있지만, 원하는 입력/출력 언어를 명시적으로 언급하면 신뢰성이 향상됩니다. 유창함을 높이기 위해 Claude에게 “원어민처럼 관용적인 표현을 사용”하도록 프롬프트할 수 있습니다.
  2. 원어 스크립트 사용: 최적의 결과를 위해 음역보다는 원어 스크립트로 텍스트를 제출하세요
  3. 문화적 맥락 고려: 효과적인 의사소통은 종종 순수한 번역을 넘어 문화적, 지역적 인식이 필요합니다

또한 Claude의 성능을 더욱 향상시키기 위해 일반적인 프롬프트 엔지니어링 가이드라인을 따르는 것이 좋습니다.


언어 지원 고려사항

  • Claude는 표준 유니코드 문자를 사용하는 대부분의 세계 언어로 입력을 처리하고 출력을 생성합니다
  • 성능은 언어에 따라 다르며, 특히 널리 사용되는 언어에서 강력한 기능을 보입니다
  • 디지털 자원이 적은 언어에서도 Claude는 의미 있는 기능을 유지합니다