我们提供三种服务层级:

  • 优先层级: 最适合部署在生产环境中的工作流,其中时间、可用性和可预测的定价很重要
  • 标准层级: 最适合突发流量,或当您尝试新想法时
  • 批处理层级: 最适合可以等待或受益于在正常容量之外的异步工作流

标准层级

标准层级是所有API请求的默认服务层级。此层级中的请求与所有其他请求一起被优先处理,并遵循尽力而为的可用性。

优先层级

此层级中的请求优先于所有其他发送到Anthropic的请求。这种优先级有助于最小化”服务器过载”错误,即使在高峰时段也是如此。

有关更多信息,请参阅开始使用优先层级

请求如何被分配层级

在处理请求时,Anthropic在以下情况下决定将请求分配给优先层级:

  • 您的组织有足够的优先层级容量输入令牌每分钟
  • 您的组织有足够的优先层级容量输出令牌每分钟

Anthropic按以下方式计算优先层级容量的使用量:

输入令牌

  • 缓存读取按从缓存读取的每个令牌0.1个令牌计算
  • 缓存写入按写入缓存的每个令牌1.25个令牌计算,TTL为5分钟
  • 缓存写入按写入缓存的每个令牌2.00个令牌计算,TTL为1小时
  • 所有其他输入令牌按每个令牌1个令牌计算

输出令牌

  • 每个令牌1个令牌

否则,请求以标准层级进行。

分配给优先层级的请求会同时使用优先层级容量和常规速率限制。 如果服务请求会超过速率限制,则请求会被拒绝。

使用服务层级

您可以通过设置service_tier参数来控制请求可以使用哪些服务层级:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 在可用时自动使用优先层级,回退到标准层级
)

service_tier参数接受以下值:

  • "auto"(默认)- 如果可用,使用优先层级容量,如果不可用则回退到您的其他容量
  • "standard_only" - 仅使用标准层级容量,如果您不想使用优先层级容量时很有用

响应usage对象还包括分配给请求的服务层级:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

这允许您确定哪个服务层级被分配给了请求。

当使用具有优先层级承诺的模型请求service_tier="auto"时,这些响应头提供见解:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

您可以使用这些头的存在来检测您的请求是否符合优先层级条件,即使它超过了限制。

开始使用优先层级

如果您对以下内容感兴趣,您可能想要承诺优先层级容量:

  • 更高的可用性:通过优先计算资源实现99.5%的正常运行时间目标
  • 成本控制:可预测的支出和更长承诺的折扣
  • 灵活的溢出:当您超过承诺容量时自动回退到标准层级

承诺优先层级将涉及决定:

  • 每分钟输入令牌数
  • 每分钟输出令牌数
  • 承诺持续时间(1、3、6或12个月)
  • 特定的模型版本

您购买的输入与输出令牌的比例很重要。调整您的优先层级容量以与您的实际流量模式保持一致,有助于您最大化已购买令牌的利用率。

支持的模型

优先层级支持:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5(两个版本)
  • Claude Haiku 3.5

查看模型概述页面了解我们模型的更多详细信息。

如何访问优先层级

要开始使用优先层级:

  1. 联系销售完成配置
  2. (可选)更新您的API请求以可选地将service_tier参数设置为auto
  3. 通过响应头和Anthropic控制台监控您的使用情况