概述

Claude 展示了強大的多語言能力,在跨語言的零樣本任務中表現尤為出色。該模型在廣泛使用的語言和資源較少的語言中都保持一致的相對表現,使其成為多語言應用的可靠選擇。

請注意,Claude 能夠處理的語言遠不止下面基準測試中的語言。我們鼓勵您使用與您特定用例相關的任何語言進行測試。

性能數據

以下是 Claude 4、Claude 3.7 Sonnet 和 Claude 3.5 模型在不同語言中的零樣本思維鏈評估分數,以相對於英語表現(100%)的百分比顯示:

語言Claude Opus 41Claude Sonnet 41Claude Sonnet 3.71Claude Sonnet 3.5 v2Claude Haiku 3.5
英語(基準,固定為 100%)100%100%100%100%100%
西班牙語98.0%97.5%97.6%96.9%94.6%
葡萄牙語(巴西)97.3%97.2%97.3%96.0%94.6%
義大利語97.5%97.3%97.2%95.6%95.0%
法語97.7%97.1%96.9%96.2%95.3%
印尼語97.2%96.2%96.3%94.0%91.2%
德語97.1%94.7%96.2%94.0%92.5%
阿拉伯語96.9%96.1%95.4%92.5%84.7%
中文(簡體)96.7%95.9%95.3%92.8%90.9%
韓語96.4%95.9%95.2%92.8%89.1%
日語96.2%95.6%95.0%92.7%90.8%
印地語96.7%95.8%94.2%89.3%80.1%
孟加拉語95.2%94.4%92.4%85.9%72.9%
斯瓦希里語89.5%87.1%89.2%83.9%64.7%
約魯巴語78.9%76.4%76.7%64.9%46.1%

1 使用延伸思考

這些指標基於MMLU(大規模多任務語言理解)英語測試集,這些測試集由專業人類翻譯人員翻譯成另外14種語言,如OpenAI的simple-evals存儲庫中所記錄。在此評估中使用人類翻譯人員確保了高質量的翻譯,這對於數位資源較少的語言尤為重要。


最佳實踐

在處理多語言內容時:

  1. 提供明確的語言上下文:雖然Claude可以自動檢測目標語言,但明確說明所需的輸入/輸出語言可以提高可靠性。為了增強流暢度,您可以提示Claude使用「如同母語使用者般的地道表達」。
  2. 使用原生文字:提交文本時使用其原生文字而非音譯,以獲得最佳結果
  3. 考慮文化背景:有效的溝通通常需要超越純粹翻譯的文化和地區意識

我們還建議遵循我們的一般提示工程指南,以更好地提高Claude的表現。


語言支援考量

  • Claude可處理使用標準Unicode字符的大多數世界語言的輸入並生成輸出
  • 表現因語言而異,在廣泛使用的語言中能力特別強
  • 即使在數位資源較少的語言中,Claude仍保持有意義的能力