使用限制
為了減少濫用並管理我們API的容量,我們對組織使用Claude API的數量實施了限制。
我們有兩種限制:
- 費用限制設定組織每月API使用的最高成本。
- 使用率限制設定組織在特定時間內可以發出的最大API請求數量。
我們在組織層級執行服務配置的限制,但您也可以為組織的工作區設定使用者可配置的限制。
關於我們的限制
- 限制旨在防止API濫用,同時最大限度地減少對常見客戶使用模式的影響。
- 限制由使用層級定義,每個層級都有不同的費用和使用率限制。
- 當您在使用API時達到某些閾值,您的組織將自動提升層級。 限制設定在組織層級。您可以在Anthropic Console的限制頁面中查看您組織的限制。
- 您可能在較短的時間間隔內達到使用率限制。例如,每分鐘60個請求(RPM)的限制可能會被執行為每秒1個請求。短時間內大量的請求可能會超過使用率限制並導致限制錯誤。
- 以下概述的限制是我們的標準限制。如果您需要更高的自定義限制,請通過Anthropic Console聯繫銷售團隊。
- 我們使用令牌桶算法來進行使用率限制。這意味著您的容量會持續補充到最大限制,而不是在固定時間間隔重置。
- 這裡描述的所有限制代表最大允許使用量,而不是保證的最低限制。這些限制旨在防止過度使用並確保用戶之間資源的公平分配。
費用限制
每個使用層級對您每個日曆月可以在API上花費的金額都有限制。一旦您達到該層級的費用限制,在符合下一層級資格之前,您需要等到下個月才能再次使用API。
要符合下一層級的資格,您必須滿足存款要求和強制等待期。較高層級需要更長的等待期。請注意,為了最小化超額資金的風險,您不能存入超過每月費用限制的金額。
提升層級的要求
使用層級 | 信用購買 | 首次購買後等待時間 | 每月最大使用額 |
---|---|---|---|
第1層 | $5 | 0天 | $100 |
第2層 | $40 | 7天 | $500 |
第3層 | $200 | 7天 | $1,000 |
第4層 | $400 | 14天 | $5,000 |
月度發票 | 不適用 | 不適用 | 不適用 |
更新的使用率限制
我們對Messages API的使用率限制是按每分鐘請求數(RPM)、每分鐘輸入令牌數(ITPM)和每分鐘輸出令牌數(OTPM)來衡量的,這些限制針對每個模型類別。 如果您超過任何使用率限制,您將收到429錯誤。
ITPM使用率限制是在每個請求開始時根據提示長度估算的,並在請求結束時根據實際使用的輸入令牌數調整估算。
從2025年初開始,我們正在逐步推出一項變更,其中只有input_tokens
和cache_creation_input_tokens
計入ITPM使用率限制,而cache_read_input_tokens
不計入(但仍會收費)。請在Anthropic Console中查看您當前的使用率限制和行為。
OTPM使用率限制是在每個請求開始時根據max_tokens
估算的,並在請求結束時根據實際使用的輸出令牌數調整估算。
如果您比預期更早達到OTPM限制,請嘗試減少max_tokens
以更好地approximating完成的大小。
點擊表格中的使用率限制層級以查看相關限制。 使用率限制按模型追蹤;因此,同一層級內的模型不共享使用率限制。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大輸入令牌數 (ITPM) | 每分鐘最大輸出令牌數 (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 8,000 |
Claude 3.5 Haiku | 50 | 50,000 | 10,000 |
Claude 3 Opus | 50 | 20,000 | 4,000 |
Claude 3 Sonnet | 50 | 40,000 | 8,000 |
Claude 3 Haiku | 50 | 50,000 | 10,000 |
Message Batches API
Message Batches API有其自己的一組使用率限制,這些限制在所有模型之間共享。這包括所有API端點的每分鐘請求數(RPM)限制,以及同時在處理隊列中的批次請求數量限制。這裡的”批次請求”指的是Message Batch的一部分。您可以創建包含數千個批次請求的Message Batch,每個請求都計入此限制。當批次請求尚未被模型成功處理時,它被視為處理隊列的一部分。
每分鐘最大請求數 (RPM) | 處理隊列中的最大批次請求數 | 每批次的最大批次請求數 |
---|---|---|
50 | 100,000 | 100,000 |
為工作區設定較低限制
為了保護組織中的工作區免受潛在過度使用的影響,您可以為每個工作區設定自定義費用和使用率限制。
例如:如果您組織的限制是每分鐘48,000個令牌(40,000個輸入令牌和8,000個輸出令牌),您可能會將一個工作區限制為每分鐘30,000個總令牌。這可以保護其他工作區免受潛在過度使用的影響,並確保組織內資源的更公平分配。剩餘未使用的每分鐘令牌(或者如果該工作區沒有使用限制,則更多)則可供其他工作區使用。
注意:
- 您不能對默認工作區設定限制。
- 如果未設定,工作區限制與組織限制相同。
- 即使工作區限制加起來更多,組織範圍的限制始終適用。
- 未來將為工作區添加輸入和輸出令牌限制的支持。
響應標頭
API響應包含顯示執行的使用率限制、當前使用情況以及限制何時重置的標頭。
返回以下標頭:
標頭 | 描述 |
---|---|
anthropic-ratelimit-requests-limit | 在任何使用率限制期間內允許的最大請求數。 |
anthropic-ratelimit-requests-remaining | 在被限制使用率之前剩餘的請求數。 |
anthropic-ratelimit-requests-reset | 請求使用率限制將完全補充的時間,以RFC 3339格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何使用率限制期間內允許的最大令牌數。 |
anthropic-ratelimit-tokens-remaining | 在被限制使用率之前剩餘的令牌數(四捨五入到最接近的千)。 |
anthropic-ratelimit-tokens-reset | 令牌使用率限制將完全補充的時間,以RFC 3339格式提供。 |
anthropic-ratelimit-input-tokens-limit | 在任何使用率限制期間內允許的最大輸入令牌數。 |
anthropic-ratelimit-input-tokens-remaining | 在被限制使用率之前剩餘的輸入令牌數(四捨五入到最接近的千)。 |
anthropic-ratelimit-input-tokens-reset | 輸入令牌使用率限制將完全補充的時間,以RFC 3339格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何使用率限制期間內允許的最大輸出令牌數。 |
anthropic-ratelimit-output-tokens-remaining | 在被限制使用率之前剩餘的輸出令牌數(四捨五入到最接近的千)。 |
anthropic-ratelimit-output-tokens-reset | 輸出令牌使用率限制將完全補充的時間,以RFC 3339格式提供。 |
retry-after | 您可以重試請求前的秒數。 |
anthropic-ratelimit-tokens-*
標頭顯示當前生效的最嚴格限制的值。例如,如果您已超過工作區每分鐘令牌限制,標頭將包含工作區每分鐘令牌使用率限制值。如果工作區限制不適用,標頭將返回剩餘的總令牌數,其中總數是輸入和輸出令牌的總和。這種方法確保您能夠看到當前API使用的最相關限制。
舊版使用率限制
我們的使用率限制以前是按每個模型類別的每分鐘請求數、每分鐘令牌數和每天令牌數來衡量的。如果您超過任何使用率限制,您將收到429錯誤。點擊使用率限制層級以查看相關限制。
使用率限制按模型追蹤,因此同一層級內的模型不共享使用率限制。
模型 | 每分鐘最大請求數 (RPM) | 每分鐘最大令牌數 (TPM) | 每天最大令牌數 (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Haiku | 50 | 50,000 | 5,000,000 |
Claude 3 Opus | 50 | 20,000 | 1,000,000 |
Claude 3 Sonnet | 50 | 40,000 | 1,000,000 |
Claude 3 Haiku | 50 | 50,000 | 5,000,000 |