服务层级

我们提供三种服务层级：

优先级层级： 最适合部署在生产环境中的工作流，其中时间、可用性和可预测的定价很重要
标准层级： 试点和扩展日常用例的默认层级
批处理层级： 最适合可以等待或受益于在正常容量之外运行的异步工作流

标准层级

标准层级是所有API请求的默认服务层级。此层级中的请求与所有其他请求一起被优先处理，并遵循尽力而为的可用性。

优先级层级

此层级中的请求优先于所有其他发送到Anthropic的请求。这种优先级有助于最小化”服务器过载”错误，即使在高峰时段也是如此。

有关更多信息，请参阅开始使用优先级层级

请求如何分配层级

在处理请求时，Anthropic在以下情况下决定将请求分配给优先级层级：

您的组织有足够的优先级层级容量输入令牌每分钟
您的组织有足够的优先级层级容量输出令牌每分钟

Anthropic按如下方式计算优先级层级容量的使用情况：

输入令牌

缓存读取为从缓存读取的每个令牌0.1个令牌
缓存写入为写入缓存的每个令牌1.25个令牌，TTL为5分钟
缓存写入为写入缓存的每个令牌2.00个令牌，TTL为1小时
对于长上下文（>200k输入令牌）请求，输入令牌为每个令牌2个令牌
所有其他输入令牌为每个令牌1个令牌

输出令牌

对于长上下文（>200k输入令牌）请求，输出令牌为每个令牌1.5个令牌
所有其他输出令牌为每个令牌1个令牌

否则，请求以标准层级进行。

分配给优先级层级的请求会同时使用优先级层级容量和常规速率限制。如果服务请求会超过速率限制，请求将被拒绝。

使用服务层级

您可以通过设置service_tier参数来控制请求可以使用哪些服务层级：

message = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 在可用时自动使用优先级层级，回退到标准层级
)

service_tier参数接受以下值：

"auto"（默认）- 如果可用，使用优先级层级容量，如果不可用则回退到您的其他容量
"standard_only" - 仅使用标准层级容量，如果您不想使用优先级层级容量时很有用

响应usage对象还包括分配给请求的服务层级：

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

这允许您确定哪个服务层级被分配给了请求。

当使用具有优先级层级承诺的模型请求service_tier="auto"时，这些响应头提供了洞察：

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

您可以使用这些头的存在来检测您的请求是否符合优先级层级的条件，即使它超过了限制。

开始使用优先级层级

如果您对以下内容感兴趣，您可能想要承诺优先级层级容量：

更高的可用性：目标99.5%的正常运行时间，具有优先的计算资源
成本控制：可预测的支出和更长承诺的折扣
灵活的溢出：当您超过承诺容量时自动回退到标准层级

承诺优先级层级将涉及决定：

每分钟输入令牌数
每分钟输出令牌数
承诺期限（1、3、6或12个月）
特定的模型版本

您购买的输入令牌与输出令牌的比例很重要。调整您的优先级层级容量以符合您的实际流量模式有助于您最大化购买令牌的利用率。

支持的模型

优先级层级支持：

Claude Opus 4.1
Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Sonnet 3.5（两个版本）
Claude Haiku 3.5

查看模型概述页面了解我们模型的更多详细信息。

如何访问优先级层级

要开始使用优先级层级：

联系销售完成配置
（可选）更新您的API请求，可选择将service_tier参数设置为auto
通过响应头和Anthropic控制台监控您的使用情况

使用 API

API 参考

SDKs

示例

第三方 API

使用 Admin API

支持与配置

标准层级

优先级层级

请求如何分配层级

使用服务层级

开始使用优先级层级

支持的模型

如何访问优先级层级

使用 API

API 参考

SDKs

示例

第三方 API

使用 Admin API

支持与配置

​标准层级

​优先级层级

​请求如何分配层级

​使用服务层级

​开始使用优先级层级

​支持的模型

​如何访问优先级层级

标准层级

优先级层级

请求如何分配层级

使用服务层级

开始使用优先级层级

支持的模型

如何访问优先级层级