我们有两种类型的限制:

  1. 支出限制设置组织每月API使用的最大成本。
  2. 速率限制设置组织在定义时间段内可以发出的最大API请求数。

我们在组织级别执行服务配置的限制,但您也可以为组织的工作空间设置用户可配置的限制。

这些限制适用于标准层和优先层的使用。有关优先层的更多信息,该层通过承诺支出提供增强的服务级别,请参阅服务层级

关于我们的限制

  • 限制旨在防止API滥用,同时最大限度地减少对常见客户使用模式的影响。
  • 限制按使用层级定义,每个层级都与不同的支出和速率限制集相关联。
  • 当您在使用API时达到某些阈值时,您的组织将自动升级层级。 限制在组织级别设置。您可以在Anthropic Console限制页面中查看您组织的限制。
  • 您可能在较短的时间间隔内达到速率限制。例如,每分钟60个请求(RPM)的速率可能被执行为每秒1个请求。短时间内的高容量请求突发可能超过速率限制并导致速率限制错误。
  • 下面概述的限制是我们的标准层级限制。如果您寻求更高的自定义限制或优先层以获得增强的服务级别,请通过Anthropic Console联系销售。
  • 我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到您的最大限制,而不是在固定间隔重置。
  • 这里描述的所有限制代表最大允许使用量,而不是保证的最小值。这些限制旨在减少意外超支并确保用户之间资源的公平分配。

支出限制

每个使用层级都有您每个日历月在API上可以花费的限制。一旦您达到您层级的支出限制,在您符合下一层级条件之前,您必须等到下个月才能再次使用API。

要符合下一层级的条件,您必须满足存款要求。为了最大限度地减少账户资金过多的风险,您不能存入超过您月度支出限制的金额。

升级层级的要求

使用层级信用购买每月最大使用量
层级1$5$100
层级2$40$500
层级3$200$1,000
层级4$400$5,000
月度发票N/AN/A

速率限制

我们对Messages API的速率限制以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量,针对每个模型类别。 如果您超过任何速率限制,您将收到429错误,描述超过了哪个速率限制,以及一个retry-after头部,指示等待多长时间。

ITPM速率限制在每个请求开始时估算,并在请求期间调整估算以反映实际使用的输入令牌数。 最终调整将input_tokenscache_creation_input_tokens计入ITPM速率限制,而cache_read_input_tokens不计入(尽管它们仍然被计费)。 在某些情况下,cache_read_input_tokens会被计入ITPM速率限制。

OTPM速率限制在每个请求开始时基于max_tokens估算,并在请求结束时调整估算以反映实际使用的输出令牌数。 如果您比预期更早达到OTPM限制,请尝试减少max_tokens以更好地近似您的完成大小。

速率限制对每个模型单独应用;因此您可以同时使用不同的模型直到它们各自的限制。 您可以在Anthropic Console中检查您当前的速率限制和行为。

模型每分钟最大请求数(RPM)每分钟最大输入令牌数(ITPM)每分钟最大输出令牌数(OTPM)
Claude Opus 45030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

标有星号(*)的限制将cache_read_input_tokens计入ITPM使用量。

Message Batches API

Message Batches API有自己的一套速率限制,这些限制在所有模型之间共享。这些包括对所有API端点的每分钟请求数(RPM)限制,以及同时在处理队列中的批处理请求数量限制。这里的”批处理请求”指的是Message Batch的一部分。您可以创建包含数千个批处理请求的Message Batch,每个都计入此限制。当批处理请求尚未被模型成功处理时,它被认为是处理队列的一部分。

每分钟最大请求数(RPM)处理队列中最大批处理请求数每批最大批处理请求数
50100,000100,000

为工作空间设置较低限制

为了保护您组织中的工作空间免受潜在的过度使用,您可以为每个工作空间设置自定义支出和速率限制。

示例:如果您组织的限制是每分钟40,000个输入令牌和每分钟8,000个输出令牌,您可能将一个工作空间限制为每分钟30,000个总令牌。这保护其他工作空间免受潜在的过度使用,并确保您组织内资源的更公平分配。剩余的未使用每分钟令牌(或更多,如果该工作空间没有使用限制)然后可供其他工作空间使用。

注意:

  • 您不能对默认工作空间设置限制。
  • 如果未设置,工作空间限制与组织的限制匹配。
  • 组织范围的限制始终适用,即使工作空间限制加起来更多。
  • 对输入和输出令牌限制的支持将在未来添加到工作空间中。

响应头部

API响应包含显示您执行的速率限制、当前使用情况以及限制何时重置的头部。

返回以下头部:

头部描述
retry-after您可以重试请求之前需要等待的秒数。更早的重试将失败。
anthropic-ratelimit-requests-limit在任何速率限制期间内允许的最大请求数。
anthropic-ratelimit-requests-remaining在被速率限制之前剩余的请求数。
anthropic-ratelimit-requests-reset请求速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-tokens-limit在任何速率限制期间内允许的最大令牌数。
anthropic-ratelimit-tokens-remaining在被速率限制之前剩余的令牌数(四舍五入到最近的千)。
anthropic-ratelimit-tokens-reset令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-input-tokens-limit在任何速率限制期间内允许的最大输入令牌数。
anthropic-ratelimit-input-tokens-remaining在被速率限制之前剩余的输入令牌数(四舍五入到最近的千)。
anthropic-ratelimit-input-tokens-reset输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-output-tokens-limit在任何速率限制期间内允许的最大输出令牌数。
anthropic-ratelimit-output-tokens-remaining在被速率限制之前剩余的输出令牌数(四舍五入到最近的千)。
anthropic-ratelimit-output-tokens-reset输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-priority-input-tokens-limit在任何速率限制期间内允许的最大优先层输入令牌数。(仅限优先层)
anthropic-priority-input-tokens-remaining在被速率限制之前剩余的优先层输入令牌数(四舍五入到最近的千)。(仅限优先层)
anthropic-priority-input-tokens-reset优先层输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层)
anthropic-priority-output-tokens-limit在任何速率限制期间内允许的最大优先层输出令牌数。(仅限优先层)
anthropic-priority-output-tokens-remaining在被速率限制之前剩余的优先层输出令牌数(四舍五入到最近的千)。(仅限优先层)
anthropic-priority-output-tokens-reset优先层输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层)

anthropic-ratelimit-tokens-*头部显示当前生效的最严格限制的值。例如,如果您已超过工作空间每分钟令牌限制,头部将包含工作空间每分钟令牌速率限制值。如果工作空间限制不适用,头部将返回剩余的总令牌,其中总数是输入和输出令牌的总和。这种方法确保您可以看到对当前API使用最相关的约束。