使用 API
服务层级
不同的服务层级允许您根据应用程序的需求平衡可用性、性能和可预测的成本。
我们提供三种服务层级:
- 优先层级: 最适合部署在生产环境中的工作流,其中时间、可用性和可预测的定价很重要
- 标准层级: 最适合突发流量,或当您尝试新想法时
- 批处理层级: 最适合可以等待或受益于在正常容量之外的异步工作流
标准层级
标准层级是所有API请求的默认服务层级。此层级中的请求与所有其他请求一起被优先处理,并遵循尽力而为的可用性。
优先层级
此层级中的请求优先于所有其他发送到Anthropic的请求。这种优先级有助于最小化”服务器过载”错误,即使在高峰时段也是如此。
有关更多信息,请参阅开始使用优先层级
请求如何被分配层级
在处理请求时,Anthropic在以下情况下决定将请求分配给优先层级:
- 您的组织有足够的优先层级容量输入令牌每分钟
- 您的组织有足够的优先层级容量输出令牌每分钟
Anthropic按以下方式计算优先层级容量的使用量:
输入令牌
- 缓存读取按从缓存读取的每个令牌0.1个令牌计算
- 缓存写入按写入缓存的每个令牌1.25个令牌计算,TTL为5分钟
- 缓存写入按写入缓存的每个令牌2.00个令牌计算,TTL为1小时
- 所有其他输入令牌按每个令牌1个令牌计算
输出令牌
- 每个令牌1个令牌
否则,请求以标准层级进行。
分配给优先层级的请求会同时使用优先层级容量和常规速率限制。 如果服务请求会超过速率限制,则请求会被拒绝。
使用服务层级
您可以通过设置service_tier
参数来控制请求可以使用哪些服务层级:
service_tier
参数接受以下值:
"auto"
(默认)- 如果可用,使用优先层级容量,如果不可用则回退到您的其他容量"standard_only"
- 仅使用标准层级容量,如果您不想使用优先层级容量时很有用
响应usage
对象还包括分配给请求的服务层级:
这允许您确定哪个服务层级被分配给了请求。
当使用具有优先层级承诺的模型请求service_tier="auto"
时,这些响应头提供见解:
您可以使用这些头的存在来检测您的请求是否符合优先层级条件,即使它超过了限制。
开始使用优先层级
如果您对以下内容感兴趣,您可能想要承诺优先层级容量:
- 更高的可用性:通过优先计算资源实现99.5%的正常运行时间目标
- 成本控制:可预测的支出和更长承诺的折扣
- 灵活的溢出:当您超过承诺容量时自动回退到标准层级
承诺优先层级将涉及决定:
- 每分钟输入令牌数
- 每分钟输出令牌数
- 承诺持续时间(1、3、6或12个月)
- 特定的模型版本
您购买的输入与输出令牌的比例很重要。调整您的优先层级容量以与您的实际流量模式保持一致,有助于您最大化已购买令牌的利用率。
支持的模型
优先层级支持:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5(两个版本)
- Claude Haiku 3.5
查看模型概述页面了解我们模型的更多详细信息。
如何访问优先层级
要开始使用优先层级:
- 联系销售完成配置
- (可选)更新您的API请求以可选地将
service_tier
参数设置为auto
- 通过响应头和Anthropic控制台监控您的使用情况