我們有兩種限制:

  1. 費用限制設定組織每月 API 使用的最高成本。
  2. 使用率限制設定組織在特定時間內可以發出的最大 API 請求數量。

我們在組織層級執行服務配置的限制,但您也可以為組織的工作區設定使用者可配置的限制。

關於我們的限制

  • 限制的設計是為了防止 API 濫用,同時最小化對常見客戶使用模式的影響。
  • 限制是按使用層級定義的,每個層級都有不同的費用和使用率限制。
  • 當您在使用 API 時達到某些閾值,您的組織將自動提升層級。 限制是在組織層級設定的。您可以在 Anthropic Console限制頁面中查看您組織的限制。
  • 您可能在較短的時間間隔內達到使用率限制。例如,每分鐘 60 個請求 (RPM) 的使用率可能會被執行為每秒 1 個請求。短時間內大量的請求可能會超過使用率限制並導致使用率限制錯誤。
  • 以下概述的限制是我們的標準限制。如果您需要更高的自定義限制,請通過 Anthropic Console 聯繫銷售團隊。
  • 我們使用令牌桶算法來進行使用率限制。這意味著您的容量會持續補充到最大限制,而不是在固定時間間隔重置。
  • 這裡描述的所有限制代表最大允許使用量,而不是保證的最低限制。這些限制旨在防止過度使用並確保用戶之間資源的公平分配。

費用限制

每個使用層級都有每個日曆月可以在 API 上花費的限制。一旦您達到該層級的費用限制,在符合下一層級資格之前,您將需要等到下個月才能再次使用 API。

要符合下一層級的資格,您必須滿足存款要求和強制等待期。較高層級需要更長的等待期。請注意,為了最小化超額資金的風險,您不能存入超過每月費用限制的金額。

提升層級的要求

使用層級信用購買首次購買後等待時間每月最大使用量
第 1 層$50 天$100
第 2 層$407 天$500
第 3 層$2007 天$1,000
第 4 層$40014 天$5,000
月度開票不適用不適用不適用

更新的使用率限制

我們的訊息 API 使用率限制是按每分鐘請求數 (RPM)、每分鐘輸入令牌數 (ITPM) 和每分鐘輸出令牌數 (OTPM) 來衡量的,適用於每個模型類別。 如果您超過任何使用率限制,您將收到 429 錯誤

ITPM 使用率限制是根據每個請求開始時的提示長度估算的,並在請求結束時根據實際使用的輸入令牌數進行調整。 請注意,所有類型的輸入令牌(input_tokenscache_creation_input_tokenscache_read_input_tokens)都同等計入 ITPM 使用率限制,即使它們的計費率不同。

OTPM 使用率限制是根據每個請求開始時的 max_tokens 估算的,並在請求結束時根據實際使用的輸出令牌數進行調整。 如果您比預期更早達到 OTPM 限制,請嘗試減少 max_tokens 以更好地估算完成的大小。

點擊表格中的使用率限制層級以查看相關使用率限制。 使用率限制是按每個模型追蹤的;因此,同一層級內的模型不共享使用率限制。

模型每分鐘最大請求數 (RPM)每分鐘最大輸入令牌數 (ITPM)每分鐘最大輸出令牌數 (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

訊息批次 API

訊息批次 API 有其自己的使用率限制,這些限制在所有模型之間共享。這包括所有 API 端點的每分鐘請求數 (RPM) 限制,以及同時在處理佇列中的批次請求數量限制。這裡的”批次請求”指的是訊息批次的一部分。您可以創建包含數千個批次請求的訊息批次,每個請求都計入此限制。當批次請求尚未被模型成功處理時,它被視為處理佇列的一部分。

每分鐘最大請求數 (RPM)處理佇列中的最大批次請求數每批次的最大批次請求數
50100,000100,000

為工作區設定較低限制

為了保護組織中的工作區免受潛在過度使用的影響,您可以為每個工作區設定自定義費用和使用率限制。

例如:如果您組織的限制是每分鐘 48,000 個令牌(40,000 個輸入令牌和 8,000 個輸出令牌),您可能會將一個工作區限制為每分鐘 30,000 個總令牌。這可以保護其他工作區免受潛在過度使用的影響,並確保組織內資源的更公平分配。剩餘未使用的每分鐘令牌(或更多,如果該工作區未使用限制)則可供其他工作區使用。

注意:

  • 您無法為預設工作區設定限制。
  • 如果未設定,工作區限制與組織的限制相同。
  • 即使工作區限制加起來更多,組織範圍的限制始終適用。
  • 未來將為工作區添加輸入和輸出令牌限制的支援。

回應標頭

API 回應包含顯示執行的使用率限制、當前使用情況以及限制何時重置的標頭。

返回以下標頭:

標頭描述
anthropic-ratelimit-requests-limit在任何使用率限制期間內允許的最大請求數。
anthropic-ratelimit-requests-remaining在被使用率限制之前剩餘的請求數。
anthropic-ratelimit-requests-reset請求使用率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-tokens-limit在任何使用率限制期間內允許的最大令牌數。
anthropic-ratelimit-tokens-remaining在被使用率限制之前剩餘的令牌數(四捨五入到最接近的千)。
anthropic-ratelimit-tokens-reset令牌使用率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-input-tokens-limit在任何使用率限制期間內允許的最大輸入令牌數。
anthropic-ratelimit-input-tokens-remaining在被使用率限制之前剩餘的輸入令牌數(四捨五入到最接近的千)。
anthropic-ratelimit-input-tokens-reset輸入令牌使用率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-output-tokens-limit在任何使用率限制期間內允許的最大輸出令牌數。
anthropic-ratelimit-output-tokens-remaining在被使用率限制之前剩餘的輸出令牌數(四捨五入到最接近的千)。
anthropic-ratelimit-output-tokens-reset輸出令牌使用率限制將完全補充的時間,以 RFC 3339 格式提供。
retry-after您可以重試請求前的秒數。

anthropic-ratelimit-tokens-* 標頭顯示當前生效的最嚴格限制的值。例如,如果您已超過工作區每分鐘令牌限制,標頭將包含工作區每分鐘令牌使用率限制值。如果工作區限制不適用,標頭將返回剩餘的總令牌數,其中總數是輸入和輸出令牌的總和。這種方法確保您能夠看到當前 API 使用的最相關限制。

舊版使用率限制

我們的使用率限制以前是按每分鐘請求數、每分鐘令牌數和每天令牌數來衡量的,適用於每個模型類別。如果您超過任何使用率限制,您將收到 429 錯誤。點擊使用率限制層級以查看相關使用率限制。

使用率限制是按每個模型追蹤的,因此同一層級內的模型不共享使用率限制。

模型每分鐘最大請求數 (RPM)每分鐘最大令牌數 (TPM)每天最大令牌數 (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000

Was this page helpful?