概要

Claudeは堅牢な多言語機能を備えており、特に言語間のゼロショットタスクにおいて優れたパフォーマンスを発揮します。モデルは広く話されている言語と低リソース言語の両方で一貫した相対的パフォーマンスを維持しており、多言語アプリケーションに信頼できる選択肢となっています。

なお、Claudeは以下のベンチマークで評価された言語以外にも多くの言語に対応しています。特定のユースケースに関連する言語でテストすることをお勧めします。

パフォーマンスデータ

以下は、Claude 4、Claude 3.7 Sonnet、およびClaude 3.5モデルの異なる言語におけるゼロショットチェーン・オブ・ソート評価スコアで、英語のパフォーマンス(100%)に対する相対的なパーセンテージとして示されています:

言語Claude Opus 41Claude Sonnet 41Claude Sonnet 3.71Claude Sonnet 3.5 v2Claude Haiku 3.5
英語(ベースライン、100%固定)100%100%100%100%100%
スペイン語98.0%97.5%97.6%96.9%94.6%
ポルトガル語(ブラジル)97.3%97.2%97.3%96.0%94.6%
イタリア語97.5%97.3%97.2%95.6%95.0%
フランス語97.7%97.1%96.9%96.2%95.3%
インドネシア語97.2%96.2%96.3%94.0%91.2%
ドイツ語97.1%94.7%96.2%94.0%92.5%
アラビア語96.9%96.1%95.4%92.5%84.7%
中国語(簡体字)96.7%95.9%95.3%92.8%90.9%
韓国語96.4%95.9%95.2%92.8%89.1%
日本語96.2%95.6%95.0%92.7%90.8%
ヒンディー語96.7%95.8%94.2%89.3%80.1%
ベンガル語95.2%94.4%92.4%85.9%72.9%
スワヒリ語89.5%87.1%89.2%83.9%64.7%
ヨルバ語78.9%76.4%76.7%64.9%46.1%

1 拡張思考を使用。

これらの指標は、OpenAIのsimple-evalsリポジトリに記載されているように、プロの人間翻訳者によって14の追加言語に翻訳されたMMLU(Massive Multitask Language Understanding)英語テストセットに基づいています。この評価に人間の翻訳者を使用することで、特にデジタルリソースが少ない言語において、高品質の翻訳が保証されます。


ベストプラクティス

多言語コンテンツを扱う際の注意点:

  1. 明確な言語コンテキストを提供する:Claudeは対象言語を自動的に検出できますが、希望する入力/出力言語を明示的に述べることで信頼性が向上します。流暢さを高めるために、「ネイティブスピーカーのような慣用的な表現」を使用するようClaudeに指示することができます。
  2. ネイティブの文字を使用する:最適な結果を得るためには、音訳ではなく、その言語本来の文字でテキストを提出してください
  3. 文化的コンテキストを考慮する:効果的なコミュニケーションには、純粋な翻訳を超えた文化的・地域的な認識が必要なことがよくあります

また、Claudeのパフォーマンスを向上させるために、一般的なプロンプトエンジニアリングガイドラインに従うことをお勧めします。


言語サポートに関する考慮事項

  • Claudeは標準のUnicode文字を使用するほとんどの世界言語で入力を処理し、出力を生成します
  • パフォーマンスは言語によって異なり、特に広く話されている言語で強力な能力を発揮します
  • デジタルリソースが少ない言語でも、Claudeは意味のある能力を維持しています