為了減少濫用並管理我們 API 的容量,我們對組織使用 Claude API 的量實施了限制。
使用層級 | 信用購買 | 每月最大使用量 |
---|---|---|
層級 1 | $5 | $100 |
層級 2 | $40 | $500 |
層級 3 | $200 | $1,000 |
層級 4 | $400 | $5,000 |
月度發票 | N/A | N/A |
retry-after
標頭。
input_tokens
和 cache_creation_input_tokens
計入 ITPM 速率限制。
cache_read_input_tokens
也計入 ITPM 速率限制。這些模型的最大 ITPM 在下面的速率限制表中標有 †。對於所有其他模型,cache_read_input_tokens
不計入 ITPM 速率限制(儘管仍會計費)。max_tokens
估算,並在請求結束時調整估算以反映實際使用的輸出令牌數量。
如果您比預期更早達到 OTPM 限制,請嘗試減少 max_tokens
以更好地近似完成的大小。
速率限制對每個模型單獨應用;因此您可以同時使用不同的模型直到它們各自的限制。
您可以在 Anthropic Console 中檢查您當前的速率限制和行為。
context-1m-2025-08-07
beta 標頭時,適用單獨的速率限制。請參閱下面的長上下文速率限制。模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (已棄用) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (已棄用) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (已棄用) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
計入 ITPM 使用量。
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
50 | 100,000 | 100,000 |
每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|
1,000,000 | 200,000 |
標頭 | 描述 |
---|---|
retry-after | 您可以重試請求之前需要等待的秒數。更早的重試將失敗。 |
anthropic-ratelimit-requests-limit | 任何速率限制期間內允許的最大請求數。 |
anthropic-ratelimit-requests-remaining | 被速率限制之前剩餘的請求數。 |
anthropic-ratelimit-requests-reset | 請求速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-tokens-limit | 任何速率限制期間內允許的最大令牌數。 |
anthropic-ratelimit-tokens-remaining | 被速率限制之前剩餘的令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-tokens-reset | 令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-input-tokens-limit | 任何速率限制期間內允許的最大輸入令牌數。 |
anthropic-ratelimit-input-tokens-remaining | 被速率限制之前剩餘的輸入令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-input-tokens-reset | 輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-output-tokens-limit | 任何速率限制期間內允許的最大輸出令牌數。 |
anthropic-ratelimit-output-tokens-remaining | 被速率限制之前剩餘的輸出令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-output-tokens-reset | 輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-priority-input-tokens-limit | 任何速率限制期間內允許的最大優先層級輸入令牌數。(僅限優先層級) |
anthropic-priority-input-tokens-remaining | 被速率限制之前剩餘的優先層級輸入令牌數(四捨五入到最近的千位)。(僅限優先層級) |
anthropic-priority-input-tokens-reset | 優先層級輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層級) |
anthropic-priority-output-tokens-limit | 任何速率限制期間內允許的最大優先層級輸出令牌數。(僅限優先層級) |
anthropic-priority-output-tokens-remaining | 被速率限制之前剩餘的優先層級輸出令牌數(四捨五入到最近的千位)。(僅限優先層級) |
anthropic-priority-output-tokens-reset | 優先層級輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層級) |
anthropic-ratelimit-tokens-*
標頭顯示當前生效的最嚴格限制的值。例如,如果您已超過工作區每分鐘令牌限制,標頭將包含工作區每分鐘令牌速率限制值。如果工作區限制不適用,標頭將返回剩餘的總令牌數,其中總數是輸入和輸出令牌的總和。這種方法確保您可以看到對當前 API 使用最相關的約束。