我们提供三种服务层级:

  • 优先层级: 最适合部署在生产环境中的工作流,时间、可用性和可预测的定价很重要
  • 标准: 最适合突发流量,或者当您尝试新想法时
  • 批处理: 最适合可以等待或受益于在正常容量之外的异步工作流

标准层级

标准层级是所有API请求的默认服务层级。此层级的请求与所有其他请求一起优先处理,并遵循尽力而为的可用性原则。

优先层级

此层级的请求优先于所有其他发送给Anthropic的请求。这种优先级允许我们提供关于”服务器过载”错误不频繁发生的保证,即使在高峰时段也是如此。

更多信息,请参阅优先层级入门

请求如何分配层级

在处理请求时,Anthropic在以下情况下决定将请求分配给优先层级:

  • 您的组织有足够的优先层级容量输入令牌每分钟
  • 您的组织有足够的优先层级容量输出令牌每分钟

Anthropic按以下方式计算优先层级容量的使用情况:

输入令牌

  • 缓存读取按从缓存读取的每个令牌0.1个令牌计算
  • 缓存写入按写入缓存的每个令牌1.25个令牌计算,TTL为5分钟
  • 缓存写入按写入缓存的每个令牌2.00个令牌计算,TTL为1小时
  • 所有其他输入令牌按1:1计算

输出令牌

  • 每个令牌1个令牌

否则,请求将以标准层级进行处理。

分配给优先层级的请求会同时使用优先层级容量和常规速率限制。 如果处理请求会超过速率限制,则请求会被拒绝。

使用服务层级

您可以通过设置service_tier参数来控制请求可以使用的服务层级:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 在可用时自动使用优先层级,否则回退到标准层级
)

service_tier参数接受以下值:

  • "auto"(默认)- 在可用时使用优先层级容量,否则回退到您的其他容量
  • "standard_only" - 仅使用标准层级容量,如果您不想使用优先层级容量时很有用

响应的usage对象还包括分配给请求的服务层级:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

这允许您确定哪个服务层级被分配给了请求。

当使用优先层级承诺的模型请求service_tier="auto"时,这些响应头提供了洞察:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

优先层级入门

如果您对以下方面感兴趣,您可能想要承诺使用优先层级容量:

  • 更高的可用性:99.9%的正常运行时间SLA,优先计算资源
  • 成本控制:可预测的支出和更长承诺的折扣
  • 灵活溢出:当您超出承诺容量时自动回退到标准层级

承诺使用优先层级将涉及决定:

  • 每分钟输入令牌数量
  • 每分钟输出令牌数量
  • 承诺期限(1、3、6或12个月)
  • 特定的模型版本

您购买的输入与输出令牌比例很重要。将您的优先层级容量大小与实际流量模式对齐有助于确保您充分利用所有购买的令牌。

支持的模型

优先层级支持以下模型:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5(两个版本)
  • Claude Haiku 3.5

查看模型概览页面了解有关我们模型的更多详情。

如何访问优先层级

要开始使用优先层级:

  1. 通过Anthropic控制台联系销售以完成配置
  2. (可选)更新您的API请求,可选择将service_tier参数设置为auto
  3. 通过响应头和Anthropic控制台监控您的使用情况