速率限制
為了減少濫用並管理我們 API 的容量,我們對組織使用 Claude API 的程度實施了限制。
我們有兩種類型的限制:
- 支出限制設定組織每月 API 使用可產生的最大成本。
- 速率限制設定組織在定義時間段內可發出的最大 API 請求數量。
我們在組織層級執行服務配置的限制,但您也可以為組織的工作區設定用戶可配置的限制。
這些限制適用於標準層級和優先層級的使用。有關優先層級的更多資訊,該層級以承諾支出換取增強的服務水準,請參閱服務層級。
關於我們的限制
- 限制旨在防止 API 濫用,同時最小化對常見客戶使用模式的影響。
- 限制由使用層級定義,每個層級都與不同的支出和速率限制集合相關聯。
- 當您在使用 API 時達到某些閾值時,您的組織將自動提升層級。 限制設定在組織層級。您可以在 Anthropic Console 的限制頁面中查看您組織的限制。
- 您可能在較短的時間間隔內達到速率限制。例如,每分鐘 60 個請求 (RPM) 的速率可能被執行為每秒 1 個請求。短時間內的大量請求突發可能超過速率限制並導致速率限制錯誤。
- 下面概述的限制是我們的標準層級限制。如果您尋求更高的自定義限制或優先層級以獲得增強的服務水準,請通過 Anthropic Console 聯繫銷售團隊。
- 我們使用令牌桶演算法來進行速率限制。這意味著您的容量會持續補充到您的最大限制,而不是在固定間隔重置。
- 此處描述的所有限制代表允許的最大使用量,而非保證的最小值。這些限制旨在減少意外超支並確保用戶間資源的公平分配。
支出限制
每個使用層級都有您每個日曆月在 API 上可以花費的限制。一旦您達到您層級的支出限制,在您符合下一層級資格之前,您必須等到下個月才能再次使用 API。
要符合下一層級的資格,您必須滿足存款要求。為了最小化過度資助您帳戶的風險,您不能存入超過您月度支出限制的金額。
提升層級的要求
使用層級 | 信用購買 | 每月最大使用量 |
---|---|---|
層級 1 | $5 | $100 |
層級 2 | $40 | $500 |
層級 3 | $200 | $1,000 |
層級 4 | $400 | $5,000 |
月度發票 | N/A | N/A |
速率限制
我們對 Messages API 的速率限制以每分鐘請求數 (RPM)、每分鐘輸入令牌數 (ITPM) 和每分鐘輸出令牌數 (OTPM) 來衡量,針對每個模型類別。
如果您超過任何速率限制,您將收到描述超過哪個速率限制的 429 錯誤,以及指示等待多長時間的 retry-after
標頭。
ITPM 速率限制在每個請求開始時估算,並在請求期間調整估算以反映實際使用的輸入令牌數量。
最終調整將 input_tokens
和 cache_creation_input_tokens
計入 ITPM 速率限制,而 cache_read_input_tokens
則不計入(儘管仍會計費)。
在某些情況下,cache_read_input_tokens
會計入 ITPM 速率限制。
OTPM 速率限制在每個請求開始時基於 max_tokens
估算,並在請求結束時調整估算以反映實際使用的輸出令牌數量。
如果您比預期更早達到 OTPM 限制,請嘗試減少 max_tokens
以更好地近似您完成的大小。
速率限制對每個模型分別應用;因此您可以同時使用不同的模型直到它們各自的限制。 您可以在 Anthropic Console 中檢查您當前的速率限制和行為。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
標有星號 (*) 的限制將 cache_read_input_tokens
計入 ITPM 使用量。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40,000* | 8,000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40,000* | 8,000 |
Claude Haiku 3.5 | 50 | 50,000* | 10,000 |
Claude Opus 3 | 50 | 20,000* | 4,000 |
Claude Sonnet 3 | 50 | 40,000* | 8,000 |
Claude Haiku 3 | 50 | 50,000* | 10,000 |
標有星號 (*) 的限制將 cache_read_input_tokens
計入 ITPM 使用量。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 | 1,000 | 80,000* | 16,000 |
Claude Sonnet 3.5 2024-06-20 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000* | 20,000 |
Claude Opus 3 | 1,000 | 40,000* | 8,000 |
Claude Sonnet 3 | 1,000 | 80,000* | 16,000 |
Claude Haiku 3 | 1,000 | 100,000* | 20,000 |
標有星號 (*) 的限制將 cache_read_input_tokens
計入 ITPM 使用量。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 | 2,000 | 160,000* | 32,000 |
Claude Sonnet 3.5 2024-06-20 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000* | 40,000 |
Claude Opus 3 | 2,000 | 80,000* | 16,000 |
Claude Sonnet 3 | 2,000 | 160,000* | 32,000 |
Claude Haiku 3 | 2,000 | 200,000* | 40,000 |
標有星號 (*) 的限制將 cache_read_input_tokens
計入 ITPM 使用量。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude Opus 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3.5 2024-06-20 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000* | 80,000 |
Claude Opus 3 | 4,000 | 400,000* | 80,000 |
Claude Sonnet 3 | 4,000 | 400,000* | 80,000 |
Claude Haiku 3 | 4,000 | 400,000* | 80,000 |
標有星號 (*) 的限制將 cache_read_input_tokens
計入 ITPM 使用量。
如果您尋求企業用例的更高限制,請通過 Anthropic Console 聯繫銷售團隊。
Message Batches API
Message Batches API 有自己的速率限制集合,這些限制在所有模型間共享。這些包括對所有 API 端點的每分鐘請求數 (RPM) 限制,以及同時可在處理佇列中的批次請求數量限制。這裡的「批次請求」指的是 Message Batch 的一部分。您可以創建包含數千個批次請求的 Message Batch,每個都計入此限制。當批次請求尚未被模型成功處理時,它被視為處理佇列的一部分。
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
50 | 100,000 | 100,000 |
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
50 | 100,000 | 100,000 |
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
1,000 | 200,000 | 100,000 |
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
2,000 | 300,000 | 100,000 |
每分鐘最大請求數 (RPM) | 處理佇列中最大批次請求數 | 每批次最大批次請求數 |
---|---|---|
4,000 | 500,000 | 100,000 |
如果您尋求企業用例的更高限制,請通過 Anthropic Console 聯繫銷售團隊。
為工作區設定較低限制
為了保護您組織中的工作區免受潛在過度使用,您可以為每個工作區設定自定義支出和速率限制。
範例:如果您組織的限制是每分鐘 40,000 個輸入令牌和每分鐘 8,000 個輸出令牌,您可能將一個工作區限制為每分鐘總共 30,000 個令牌。這保護其他工作區免受潛在過度使用,並確保您組織內資源的更公平分配。剩餘未使用的每分鐘令牌(或更多,如果該工作區未使用限制)然後可供其他工作區使用。
注意:
- 您不能對預設工作區設定限制。
- 如果未設定,工作區限制與組織的限制相符。
- 組織範圍的限制始終適用,即使工作區限制加起來超過也是如此。
- 對輸入和輸出令牌限制的支援將在未來添加到工作區中。
回應標頭
API 回應包含顯示執行的速率限制、當前使用量以及限制何時重置的標頭。
返回以下標頭:
標頭 | 描述 |
---|---|
retry-after | 您可以重試請求之前需要等待的秒數。更早的重試將失敗。 |
anthropic-ratelimit-requests-limit | 在任何速率限制期間內允許的最大請求數。 |
anthropic-ratelimit-requests-remaining | 在被速率限制之前剩餘的請求數。 |
anthropic-ratelimit-requests-reset | 請求速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何速率限制期間內允許的最大令牌數。 |
anthropic-ratelimit-tokens-remaining | 在被速率限制之前剩餘的令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-tokens-reset | 令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-input-tokens-limit | 在任何速率限制期間內允許的最大輸入令牌數。 |
anthropic-ratelimit-input-tokens-remaining | 在被速率限制之前剩餘的輸入令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-input-tokens-reset | 輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何速率限制期間內允許的最大輸出令牌數。 |
anthropic-ratelimit-output-tokens-remaining | 在被速率限制之前剩餘的輸出令牌數(四捨五入到最近的千位)。 |
anthropic-ratelimit-output-tokens-reset | 輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。 |
anthropic-priority-input-tokens-limit | 在任何速率限制期間內允許的最大優先層級輸入令牌數。(僅限優先層級) |
anthropic-priority-input-tokens-remaining | 在被速率限制之前剩餘的優先層級輸入令牌數(四捨五入到最近的千位)。(僅限優先層級) |
anthropic-priority-input-tokens-reset | 優先層級輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層級) |
anthropic-priority-output-tokens-limit | 在任何速率限制期間內允許的最大優先層級輸出令牌數。(僅限優先層級) |
anthropic-priority-output-tokens-remaining | 在被速率限制之前剩餘的優先層級輸出令牌數(四捨五入到最近的千位)。(僅限優先層級) |
anthropic-priority-output-tokens-reset | 優先層級輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層級) |
anthropic-ratelimit-tokens-*
標頭顯示當前生效的最嚴格限制的值。例如,如果您已超過工作區每分鐘令牌限制,標頭將包含工作區每分鐘令牌速率限制值。如果工作區限制不適用,標頭將返回剩餘總令牌數,其中總數是輸入和輸出令牌的總和。這種方法確保您可以看到對當前 API 使用最相關的約束。