速率限制
为了减轻滥用并管理我们API的容量,我们对组织使用Claude API的程度实施了限制。
我们有两种类型的限制:
- 消费限制设置组织在API使用上可能产生的最大月度成本。
- 速率限制设置组织在特定时间段内可以发出的最大API请求数量。
我们在组织级别强制执行服务配置的限制,但您也可以为组织的工作区设置用户可配置的限制。
这些限制适用于标准层级和优先层级的使用。有关优先层级的更多信息(该层级通过承诺消费来提供增强的服务水平),请参阅服务层级。
关于我们的限制
- 限制旨在防止API滥用,同时最小化对常见客户使用模式的影响。
- 限制由使用层级定义,每个层级都与一组不同的消费和速率限制相关联。
- 当您在使用API时达到某些阈值,您的组织将自动提升层级。 限制设置在组织级别。您可以在Anthropic控制台的限制页面中查看组织的限制。
- 您可能会在较短的时间间隔内达到速率限制。例如,每分钟60个请求(RPM)的速率可能被强制执行为每秒1个请求。短时间内大量请求的突发可能会超过速率限制并导致速率限制错误。
- 下面概述的限制是我们的标准层级限制。如果您寻求更高的自定义限制或优先层级以获得增强的服务水平,请通过Anthropic控制台联系销售团队。
- 我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到最大限制,而不是在固定间隔重置。
- 此处描述的所有限制代表允许的最大使用量,而非保证的最低限度。这些限制旨在减少意外超支并确保资源在用户之间公平分配。
消费限制
每个使用层级对您每个日历月在API上的消费有限制。一旦您达到您所在层级的消费限制,在您有资格升级到下一层级之前,您将需要等到下个月才能再次使用API。
要有资格升级到下一层级,您必须满足存款要求。为了最小化账户过度充值的风险,您不能存入超过您月度消费限制的金额。
提升层级的要求
使用层级 | 信用购买 | 每月最大使用量 |
---|---|---|
层级1 | $5 | $100 |
层级2 | $40 | $500 |
层级3 | $200 | $1,000 |
层级4 | $400 | $5,000 |
月度发票 | 不适用 | 不适用 |
速率限制
我们对Messages API的速率限制以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量,针对每个模型类别。
如果您超过任何速率限制,您将收到一个429错误,描述超过了哪个速率限制,以及一个retry-after
头部,指示需要等待多长时间。
ITPM速率限制在每个请求开始时估计,并在请求期间调整估计值以反映实际使用的输入令牌数量。
最终调整将input_tokens
和cache_creation_input_tokens
计入ITPM速率限制,而cache_read_input_tokens
则不计入(尽管它们仍然会被计费)。
在某些情况下,cache_read_input_tokens
会计入ITPM速率限制。
OTPM速率限制在每个请求开始时基于max_tokens
进行估计,并在请求结束时调整估计值以反映实际使用的输出令牌数量。
如果您比预期更早地达到OTPM限制,请尝试减少max_tokens
以更好地近似您的完成内容的大小。
速率限制分别应用于每个模型;因此,您可以同时使用不同的模型,每个模型都可以达到其各自的限制。 您可以在Anthropic控制台中查看您当前的速率限制和行为。
模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
标有星号(*)的限制将cache_read_input_tokens
计入ITPM使用量。
模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 4 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
标有星号(*)的限制将cache_read_input_tokens
计入ITPM使用量。
模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 4 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 | 1,000 | 80,000* | 16,000 |
Claude Sonnet 3.5 2024-06-20 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000* | 20,000 |
Claude Opus 3 | 1,000 | 40,000* | 8,000 |
Claude Sonnet 3 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3 | 1,000 | 100,000* | 20,000 |
标有星号(*)的限制将cache_read_input_tokens
计入ITPM使用量。
模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 4 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 | 2,000 | 160,000* | 32,000 |
Claude Sonnet 3.5 2024-06-20 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000* | 40,000 |
Claude Opus 3 | 2,000 | 80,000* | 16,000 |
Claude Sonnet 3 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3 | 2,000 | 200,000* | 40,000 |
标有星号(*)的限制将cache_read_input_tokens
计入ITPM使用量。
模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 4 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3.5 2024-06-20 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000* | 80,000 |
Claude Opus 3 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3 | 4,000 | 400,000* | 80,000 |
标有星号(*)的限制将cache_read_input_tokens
计入ITPM使用量。
如果您正在寻求企业用例的更高限制,请通过Anthropic控制台联系销售团队。
Message Batches API
Message Batches API有自己的一组速率限制,这些限制在所有模型之间共享。这些限制包括对所有API端点的每分钟请求数(RPM)限制,以及同时在处理队列中的批处理请求数量限制。这里的”批处理请求”指的是Message Batch的一部分。您可以创建包含数千个批处理请求的Message Batch,每个请求都计入此限制。当批处理请求尚未被模型成功处理时,它被视为处理队列的一部分。
每分钟最大请求数(RPM) | 处理队列中的最大批处理请求数 | 每批的最大批处理请求数 |
---|---|---|
50 | 100,000 | 100,000 |
每分钟最大请求数(RPM) | 处理队列中的最大批处理请求数 | 每批的最大批处理请求数 |
---|---|---|
50 | 100,000 | 100,000 |
每分钟最大请求数(RPM) | 处理队列中的最大批处理请求数 | 每批的最大批处理请求数 |
---|---|---|
1,000 | 200,000 | 100,000 |
每分钟最大请求数(RPM) | 处理队列中的最大批处理请求数 | 每批的最大批处理请求数 |
---|---|---|
2,000 | 300,000 | 100,000 |
每分钟最大请求数(RPM) | 处理队列中的最大批处理请求数 | 每批的最大批处理请求数 |
---|---|---|
4,000 | 500,000 | 100,000 |
如果您正在寻求企业用例的更高限制,请通过Anthropic控制台联系销售团队。
为工作区设置较低的限制
为了保护组织中的工作区免受潜在过度使用的影响,您可以为每个工作区设置自定义消费和速率限制。
示例:如果您组织的限制是每分钟40,000个输入令牌和每分钟8,000个输出令牌,您可能会将一个工作区限制为每分钟30,000个总令牌。这可以保护其他工作区免受潜在过度使用的影响,并确保资源在组织中更公平地分配。剩余未使用的每分钟令牌(或者如果该工作区没有使用限制,则更多)随后可供其他工作区使用。
注意:
- 您不能对默认工作区设置限制。
- 如果未设置,工作区限制与组织的限制相匹配。
- 即使工作区限制加起来更多,组织范围的限制始终适用。
- 对输入和输出令牌限制的支持将在未来添加到工作区。
响应头部
API响应包含显示强制执行的速率限制、当前使用情况以及何时重置限制的头部。
返回以下头部:
头部 | 描述 |
---|---|
retry-after | 在可以重试请求之前需要等待的秒数。更早的重试将失败。 |
anthropic-ratelimit-requests-limit | 在任何速率限制期间内允许的最大请求数。 |
anthropic-ratelimit-requests-remaining | 在被速率限制之前剩余的请求数。 |
anthropic-ratelimit-requests-reset | 请求速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何速率限制期间内允许的最大令牌数。 |
anthropic-ratelimit-tokens-remaining | 在被速率限制之前剩余的令牌数(四舍五入到最接近的千)。 |
anthropic-ratelimit-tokens-reset | 令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-input-tokens-limit | 在任何速率限制期间内允许的最大输入令牌数。 |
anthropic-ratelimit-input-tokens-remaining | 在被速率限制之前剩余的输入令牌数(四舍五入到最接近的千)。 |
anthropic-ratelimit-input-tokens-reset | 输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何速率限制期间内允许的最大输出令牌数。 |
anthropic-ratelimit-output-tokens-remaining | 在被速率限制之前剩余的输出令牌数(四舍五入到最接近的千)。 |
anthropic-ratelimit-output-tokens-reset | 输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-priority-input-tokens-limit | 在任何速率限制期间内允许的最大优先层级输入令牌数。(仅限优先层级) |
anthropic-priority-input-tokens-remaining | 在被速率限制之前剩余的优先层级输入令牌数(四舍五入到最接近的千)。(仅限优先层级) |
anthropic-priority-input-tokens-reset | 优先层级输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层级) |
anthropic-priority-output-tokens-limit | 在任何速率限制期间内允许的最大优先层级输出令牌数。(仅限优先层级) |
anthropic-priority-output-tokens-remaining | 在被速率限制之前剩余的优先层级输出令牌数(四舍五入到最接近的千)。(仅限优先层级) |
anthropic-priority-output-tokens-reset | 优先层级输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层级) |
anthropic-ratelimit-tokens-*
头部显示当前生效的最严格限制的值。例如,如果您已超过工作区每分钟令牌限制,头部将包含工作区每分钟令牌速率限制值。如果工作区限制不适用,头部将返回剩余的总令牌数,其中总数是输入和输出令牌的总和。这种方法确保您能够了解当前API使用的最相关约束。