速率限制

我们有两种类型的限制：

支出限制设定组织每月API使用的最大成本。
速率限制设定组织在定义时间段内可以发出的API请求的最大数量。

我们在组织级别执行服务配置的限制，但您也可以为组织的工作区设置用户可配置的限制。

这些限制适用于标准层和优先层的使用。有关优先层的更多信息，优先层通过承诺支出提供增强的服务级别，请参阅服务层级。

关于我们的限制

限制旨在防止API滥用，同时最小化对常见客户使用模式的影响。
限制由使用层级定义，每个层级与不同的支出和速率限制集相关联。
当您在使用API时达到某些阈值时，您的组织将自动提升层级。限制在组织级别设置。您可以在Anthropic Console的限制页面中查看您组织的限制。
您可能在较短的时间间隔内达到速率限制。例如，每分钟60个请求(RPM)的速率可能被执行为每秒1个请求。短时间内的高量请求突发可能超过速率限制并导致速率限制错误。
下面概述的限制是我们的标准层级限制。如果您寻求更高的自定义限制或优先层以获得增强的服务级别，请通过Anthropic Console联系销售。
我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到您的最大限制，而不是在固定间隔重置。
这里描述的所有限制代表最大允许使用量，而不是保证的最小值。这些限制旨在减少意外超支并确保用户之间资源的公平分配。

支出限制

每个使用层级对您每个日历月在API上的支出都有限制。一旦您达到您层级的支出限制，直到您符合下一层级的条件，您将必须等到下个月才能再次使用API。

要符合下一层级的条件，您必须满足存款要求。为了最小化过度充值您账户的风险，您不能存入超过您月度支出限制的金额。

提升层级的要求

使用层级	信用购买	每月最大使用量
层级1	$5	$100
层级2	$40	$500
层级3	$200	$1,000
层级4	$400	$5,000
月度发票	N/A	N/A

我们对Messages API的速率限制以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量，针对每个模型类别。如果您超过任何速率限制，您将收到一个429错误，描述超过了哪个速率限制，以及一个retry-after头部，指示等待多长时间。

ITPM速率限制在每个请求开始时估算，并在请求期间调整估算以反映实际使用的输入令牌数。最终调整将input_tokens和cache_creation_input_tokens计入ITPM速率限制，而cache_read_input_tokens不计入(尽管它们仍然被计费)。在某些情况下，cache_read_input_tokens会被计入ITPM速率限制。

OTPM速率限制基于每个请求开始时的max_tokens进行估算，并在请求结束时调整估算以反映实际使用的输出令牌数。如果您比预期更早达到OTPM限制，请尝试减少max_tokens以更好地近似您完成的大小。

速率限制对每个模型单独应用；因此您可以同时使用不同的模型直到它们各自的限制。您可以在Anthropic Console中检查您当前的速率限制和行为。

对于长上下文请求(>200K令牌)，当使用Claude Sonnet 4的context-1m-2025-08-07 beta头部时，适用单独的速率限制。请参阅下面的长上下文速率限制。

模型	每分钟最大请求数(RPM)	每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

模型	每分钟最大请求数(RPM)	每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3	50	20,000^†	4,000
Claude Sonnet 3	50	40,000^†	8,000
Claude Haiku 3	50	50,000^†	10,000

模型	每分钟最大请求数(RPM)	每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
Claude Opus 4.x^*	1,000	450,000	90,000
Claude Sonnet 4	1,000	450,000	90,000
Claude Sonnet 3.7	1,000	40,000	16,000
Claude Sonnet 3.5 2024-10-22	1,000	80,000^†	16,000
Claude Sonnet 3.5 2024-06-20	1,000	80,000^†	16,000
Claude Haiku 3.5	1,000	100,000^†	20,000
Claude Opus 3	1,000	40,000^†	8,000
Claude Sonnet 3	1,000	80,000^†	16,000
Claude Haiku 3	1,000	100,000^†	20,000

模型	每分钟最大请求数(RPM)	每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
Claude Opus 4.x^*	2,000	800,000	160,000
Claude Sonnet 4	2,000	800,000	160,000
Claude Sonnet 3.7	2,000	80,000	32,000
Claude Sonnet 3.5 2024-10-22	2,000	160,000^†	32,000
Claude Sonnet 3.5 2024-06-20	2,000	160,000^†	32,000
Claude Haiku 3.5	2,000	200,000^†	40,000
Claude Opus 3	2,000	80,000^†	16,000
Claude Sonnet 3	2,000	160,000^†	32,000
Claude Haiku 3	2,000	200,000^†	40,000

模型	每分钟最大请求数(RPM)	每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
Claude Opus 4.x^*	4,000	2,000,000	400,000
Claude Sonnet 4	4,000	2,000,000	400,000
Claude Sonnet 3.7	4,000	200,000	80,000
Claude Sonnet 3.5 2024-10-22	4,000	400,000^†	80,000
Claude Sonnet 3.5 2024-06-20	4,000	400,000^†	80,000
Claude Haiku 3.5	4,000	400,000^†	80,000
Claude Opus 3	4,000	400,000^†	80,000
Claude Sonnet 3	4,000	400,000^†	80,000
Claude Haiku 3	4,000	400,000^†	80,000

如果您寻求企业用例的更高限制，请通过Anthropic Console联系销售。

^{* - Opus 4.x速率限制是适用于Opus 4.0和Opus 4.1合并流量的总限制。}

^{† - 限制将cache_read_input_tokens计入ITPM使用量。}

Message Batches API

Message Batches API有自己的一套速率限制，这些限制在所有模型之间共享。这些包括对所有API端点的每分钟请求数(RPM)限制和同时在处理队列中的批次请求数量限制。这里的”批次请求”指的是Message Batch的一部分。您可以创建一个包含数千个批次请求的Message Batch，每个都计入此限制。当批次请求尚未被模型成功处理时，它被视为处理队列的一部分。

每分钟最大请求数(RPM)	处理队列中最大批次请求数	每批次最大批次请求数
50	100,000	100,000

每分钟最大请求数(RPM)	处理队列中最大批次请求数	每批次最大批次请求数
50	100,000	100,000

每分钟最大请求数(RPM)	处理队列中最大批次请求数	每批次最大批次请求数
1,000	200,000	100,000

每分钟最大请求数(RPM)	处理队列中最大批次请求数	每批次最大批次请求数
2,000	300,000	100,000

每分钟最大请求数(RPM)	处理队列中最大批次请求数	每批次最大批次请求数
4,000	500,000	100,000

如果您寻求企业用例的更高限制，请通过Anthropic Console联系销售。

长上下文速率限制

当使用Claude Sonnet 4并启用1M令牌上下文窗口时，以下专用速率限制适用于超过200K令牌的请求。

1M令牌上下文窗口目前对使用层级4的组织和具有自定义速率限制的组织处于beta阶段。1M令牌上下文窗口仅适用于Claude Sonnet 4。

每分钟最大输入令牌数(ITPM)	每分钟最大输出令牌数(OTPM)
500,000	100,000

要访问具有500K ITPM速率限制的完整1M令牌上下文窗口，您可以使用提示缓存。

为工作区设置更低的限制

为了保护您组织中的工作区免受潜在的过度使用，您可以为每个工作区设置自定义支出和速率限制。

示例：如果您组织的限制是每分钟40,000个输入令牌和每分钟8,000个输出令牌，您可能将一个工作区限制为每分钟30,000个总令牌。这保护其他工作区免受潜在的过度使用，并确保您组织内资源的更公平分配。剩余的未使用每分钟令牌(或更多，如果该工作区不使用限制)然后可供其他工作区使用。

注意：

您不能在默认工作区上设置限制。
如果未设置，工作区限制与组织的限制匹配。
组织范围的限制始终适用，即使工作区限制加起来更多。
对输入和输出令牌限制的支持将在未来添加到工作区。

响应头部

API响应包含显示您执行的速率限制、当前使用情况以及限制何时重置的头部。

返回以下头部：

头部	描述
`retry-after`	您可以重试请求之前需要等待的秒数。更早的重试将失败。
`anthropic-ratelimit-requests-limit`	在任何速率限制期间内允许的最大请求数。
`anthropic-ratelimit-requests-remaining`	在被速率限制之前剩余的请求数。
`anthropic-ratelimit-requests-reset`	请求速率限制将完全补充的时间，以RFC 3339格式提供。
`anthropic-ratelimit-tokens-limit`	在任何速率限制期间内允许的最大令牌数。
`anthropic-ratelimit-tokens-remaining`	在被速率限制之前剩余的令牌数(四舍五入到最近的千)。
`anthropic-ratelimit-tokens-reset`	令牌速率限制将完全补充的时间，以RFC 3339格式提供。
`anthropic-ratelimit-input-tokens-limit`	在任何速率限制期间内允许的最大输入令牌数。
`anthropic-ratelimit-input-tokens-remaining`	在被速率限制之前剩余的输入令牌数(四舍五入到最近的千)。
`anthropic-ratelimit-input-tokens-reset`	输入令牌速率限制将完全补充的时间，以RFC 3339格式提供。
`anthropic-ratelimit-output-tokens-limit`	在任何速率限制期间内允许的最大输出令牌数。
`anthropic-ratelimit-output-tokens-remaining`	在被速率限制之前剩余的输出令牌数(四舍五入到最近的千)。
`anthropic-ratelimit-output-tokens-reset`	输出令牌速率限制将完全补充的时间，以RFC 3339格式提供。
`anthropic-priority-input-tokens-limit`	在任何速率限制期间内允许的最大优先层输入令牌数。(仅限优先层)
`anthropic-priority-input-tokens-remaining`	在被速率限制之前剩余的优先层输入令牌数(四舍五入到最近的千)。(仅限优先层)
`anthropic-priority-input-tokens-reset`	优先层输入令牌速率限制将完全补充的时间，以RFC 3339格式提供。(仅限优先层)
`anthropic-priority-output-tokens-limit`	在任何速率限制期间内允许的最大优先层输出令牌数。(仅限优先层)
`anthropic-priority-output-tokens-remaining`	在被速率限制之前剩余的优先层输出令牌数(四舍五入到最近的千)。(仅限优先层)
`anthropic-priority-output-tokens-reset`	优先层输出令牌速率限制将完全补充的时间，以RFC 3339格式提供。(仅限优先层)

anthropic-ratelimit-tokens-*头部显示当前生效的最严格限制的值。例如，如果您已超过工作区每分钟令牌限制，头部将包含工作区每分钟令牌速率限制值。如果工作区限制不适用，头部将返回剩余的总令牌，其中总数是输入和输出令牌的总和。这种方法确保您可以看到对当前API使用最相关的约束。

使用 API

API 参考

SDKs

示例

第三方 API

使用管理员 API

支持与配置

速率限制

关于我们的限制

支出限制

提升层级的要求

速率限制

Message Batches API

长上下文速率限制

为工作区设置更低的限制

响应头部

使用 API

API 参考

SDKs

示例

第三方 API

使用管理员 API

支持与配置

​关于我们的限制

​支出限制

​提升层级的要求

​速率限制

​Message Batches API

​长上下文速率限制

​为工作区设置更低的限制

​响应头部

关于我们的限制

支出限制

提升层级的要求

速率限制

Message Batches API

长上下文速率限制

为工作区设置更低的限制

响应头部