为了减少滥用并管理我们API的容量,我们对组织使用Claude API的数量实施了限制。
使用层级 | 信用购买 | 每月最大使用量 |
---|---|---|
层级1 | $5 | $100 |
层级2 | $40 | $500 |
层级3 | $200 | $1,000 |
层级4 | $400 | $5,000 |
月度开票 | 不适用 | 不适用 |
retry-after
头部,指示等待多长时间。
input_tokens
和cache_creation_input_tokens
计入ITPM速率限制。
cache_read_input_tokens
也计入ITPM速率限制。这些模型的最大ITPM在下面的速率限制表中用†标记。对于所有其他模型,cache_read_input_tokens
不计入ITPM速率限制(尽管它们仍然被计费)。max_tokens
进行估算,并在请求结束时调整估算以反映实际使用的输出令牌数量。
如果您比预期更早达到OTPM限制,请尝试减少max_tokens
以更好地近似您的完成大小。
速率限制对每个模型单独应用;因此您可以同时使用不同的模型直到它们各自的限制。
您可以在Anthropic Console中查看您当前的速率限制和行为。
context-1m-2025-08-07
beta头部时,适用单独的速率限制。请参阅下面的长上下文速率限制。模型 | 每分钟最大请求数(RPM) | 每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (已弃用) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (已弃用) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (已弃用) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
计入ITPM使用量。
每分钟最大请求数(RPM) | 处理队列中最大批处理请求数 | 每批最大批处理请求数 |
---|---|---|
50 | 100,000 | 100,000 |
每分钟最大输入令牌数(ITPM) | 每分钟最大输出令牌数(OTPM) |
---|---|
1,000,000 | 200,000 |
头部 | 描述 |
---|---|
retry-after | 在您可以重试请求之前等待的秒数。更早的重试将失败。 |
anthropic-ratelimit-requests-limit | 在任何速率限制期间内允许的最大请求数。 |
anthropic-ratelimit-requests-remaining | 在被速率限制之前剩余的请求数。 |
anthropic-ratelimit-requests-reset | 请求速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何速率限制期间内允许的最大令牌数。 |
anthropic-ratelimit-tokens-remaining | 在被速率限制之前剩余的令牌数(四舍五入到最近的千位)。 |
anthropic-ratelimit-tokens-reset | 令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-input-tokens-limit | 在任何速率限制期间内允许的最大输入令牌数。 |
anthropic-ratelimit-input-tokens-remaining | 在被速率限制之前剩余的输入令牌数(四舍五入到最近的千位)。 |
anthropic-ratelimit-input-tokens-reset | 输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何速率限制期间内允许的最大输出令牌数。 |
anthropic-ratelimit-output-tokens-remaining | 在被速率限制之前剩余的输出令牌数(四舍五入到最近的千位)。 |
anthropic-ratelimit-output-tokens-reset | 输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。 |
anthropic-priority-input-tokens-limit | 在任何速率限制期间内允许的最大优先层输入令牌数。(仅限优先层) |
anthropic-priority-input-tokens-remaining | 在被速率限制之前剩余的优先层输入令牌数(四舍五入到最近的千位)。(仅限优先层) |
anthropic-priority-input-tokens-reset | 优先层输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层) |
anthropic-priority-output-tokens-limit | 在任何速率限制期间内允许的最大优先层输出令牌数。(仅限优先层) |
anthropic-priority-output-tokens-remaining | 在被速率限制之前剩余的优先层输出令牌数(四舍五入到最近的千位)。(仅限优先层) |
anthropic-priority-output-tokens-reset | 优先层输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层) |
anthropic-ratelimit-tokens-*
头部显示当前生效的最严格限制的值。例如,如果您已超过工作空间每分钟令牌限制,头部将包含工作空间每分钟令牌速率限制值。如果工作空间限制不适用,头部将返回剩余的总令牌,其中总数是输入和输出令牌的总和。这种方法确保您可以看到对当前API使用最相关的约束。