概述

Claude展示了强大的多语言能力,在跨语言的零样本任务中表现尤为出色。该模型在广泛使用的语言和资源较少的语言中都保持一致的相对性能,使其成为多语言应用的可靠选择。

请注意,Claude能够处理的语言远不止下面基准测试中列出的那些。我们鼓励您测试与您特定用例相关的任何语言。

性能数据

以下是Claude 4、Claude 3.7 Sonnet和Claude 3.5模型在不同语言中的零样本思维链评估分数,显示为相对于英语性能(100%)的百分比:

语言Claude Opus 41Claude Sonnet 41Claude Sonnet 3.71Claude Sonnet 3.5 v2Claude Haiku 3.5
英语(基准,固定为100%)100%100%100%100%100%
西班牙语98.0%97.5%97.6%96.9%94.6%
葡萄牙语(巴西)97.3%97.2%97.3%96.0%94.6%
意大利语97.5%97.3%97.2%95.6%95.0%
法语97.7%97.1%96.9%96.2%95.3%
印尼语97.2%96.2%96.3%94.0%91.2%
德语97.1%94.7%96.2%94.0%92.5%
阿拉伯语96.9%96.1%95.4%92.5%84.7%
中文(简体)96.7%95.9%95.3%92.8%90.9%
韩语96.4%95.9%95.2%92.8%89.1%
日语96.2%95.6%95.0%92.7%90.8%
印地语96.7%95.8%94.2%89.3%80.1%
孟加拉语95.2%94.4%92.4%85.9%72.9%
斯瓦希里语89.5%87.1%89.2%83.9%64.7%
约鲁巴语78.9%76.4%76.7%64.9%46.1%

1 使用延伸思考

这些指标基于MMLU(大规模多任务语言理解)英语测试集,这些测试集由专业人类翻译人员翻译成另外14种语言,如OpenAI的simple-evals仓库中所记录。在此评估中使用人类翻译确保了高质量的翻译,这对于数字资源较少的语言尤为重要。


最佳实践

在处理多语言内容时:

  1. 提供清晰的语言上下文:虽然Claude可以自动检测目标语言,但明确说明所需的输入/输出语言可以提高可靠性。为了增强流畅度,您可以提示Claude”使用如同母语使用者的地道表达”。
  2. 使用原生文字:提交文本时使用其原生文字而非音译,以获得最佳结果
  3. 考虑文化背景:有效的沟通通常需要超越纯翻译的文化和地区意识

我们还建议遵循我们的一般提示工程指南,以更好地提高Claude的性能。


语言支持考虑因素

  • Claude可以处理使用标准Unicode字符的大多数世界语言的输入并生成输出
  • 性能因语言而异,在广泛使用的语言中具有特别强大的能力
  • 即使在数字资源较少的语言中,Claude也保持有意义的能力