私たちには2種類の制限があります:

  1. 支出制限は、組織がAPI使用に対して発生させることができる月間最大コストを設定します。
  2. レート制限は、組織が一定期間内に行うことができるAPI要求の最大数を設定します。

サービスで設定された制限は組織レベルで適用されますが、組織のワークスペースに対してユーザーが設定可能な制限を設定することもできます。

制限について

  • 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの乱用を防ぐように設計されています。
  • 制限は使用層によって定義され、各層には異なる支出制限とレート制限が関連付けられています。
  • APIを使用する中で特定のしきい値に達すると、組織は自動的に上位層に移行します。 制限は組織レベルで設定されます。組織の制限はAnthropic Console制限ページで確認できます。
  • より短い時間間隔でレート制限に達する可能性があります。例えば、1分あたり60リクエスト(RPM)のレートは、1秒あたり1リクエストとして適用される場合があります。高いボリュームの短時間のリクエストバーストはレート制限を超過し、レート制限エラーが発生する可能性があります。
  • 以下に示す制限は標準的な制限です。より高い、カスタムの制限を求める場合は、Anthropic Consoleを通じて営業部門にお問い合わせください。
  • レート制限にはトークンバケットアルゴリズムを使用しています。
  • ここで説明するすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、過剰使用を防ぎ、ユーザー間でリソースを公平に分配することを目的としています。

支出制限

各使用層には、毎月のAPIに使用できる金額の制限があります。層の支出制限に達すると、次の層に昇格するまで、次の月までAPIを使用することはできません。

次の層に昇格するには、デポジット要件と必須の待機期間を満たす必要があります。上位層ではより長い待機期間が必要です。なお、アカウントの過剰入金のリスクを最小限に抑えるため、月間支出制限を超えて入金することはできません。

層の昇格要件

使用層クレジット購入初回購入後の待機期間月間最大使用額
層1$50日$100
層2$407日$500
層3$2007日$1,000
層4$40014日$5,000
月次請求該当なし該当なし該当なし

更新されたレート制限

メッセージAPIのレート制限は、各モデルクラスに対して1分あたりのリクエスト数(RPM)、1分あたりの入力トークン数(ITPM)、1分あたりの出力トークン数(OTPM)で測定されます。レート制限を超過すると429エラーが発生します。関連するレート制限を表示するには、レート制限層をクリックしてください。

レート制限はモデルごとに追跡されます。したがって、同じ層内のモデルはレート制限を共有しません。

モデル1分あたりの最大リクエスト数(RPM)1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

OTPMレート制限は、各リクエストの開始時にmax_tokensに基づいて推定され、リクエストの終了時に実際に使用された出力トークン数を反映するように調整されます。予想よりも早くOTPM制限に達する場合は、max_tokensを完了のサイズに合わせて減らしてみてください。

メッセージバッチAPI

メッセージバッチAPIには、すべてのモデルで共有される独自のレート制限があります。これには、すべてのAPIエンドポイントに対する1分あたりのリクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエストの数の制限が含まれます。ここでの「バッチリクエスト」とは、メッセージバッチの一部を指します。数千のバッチリクエストを含むメッセージバッチを作成できますが、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによって正常に処理されていない場合、処理キューの一部とみなされます。

1分あたりの最大リクエスト数(RPM)処理キュー内の最大バッチリクエスト数
50100,000

ワークスペースの制限の設定

組織内のワークスペースの過剰使用から保護するために、ワークスペースごとにカスタムの支出制限とレート制限を設定できます。

例:組織の制限が1分あたり48,000トークン(入力トークン40,000と出力トークン8,000)の場合、1つのワークスペースを1分あたり30,000トークンに制限することができます。これにより、他のワークスペースを過剰使用から保護し、組織全体でリソースをより公平に分配することができます。残りの未使用のトークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースが使用できます。

注意:

  • デフォルトのワークスペースには制限を設定できません。
  • 設定されていない場合、ワークスペースの制限は組織の制限と一致します。
  • ワークスペースの制限の合計が組織全体の制限を超えても、組織全体の制限が常に適用されます。
  • 入力トークンと出力トークンの制限のワークスペースへのサポートは将来追加される予定です。

レスポンスヘッダー

APIレスポンスには、適用されるレート制限、現在の使用状況、制限がリセットされる時期を示すヘッダーが含まれます。

以下のヘッダーが返されます:

ヘッダー説明
anthropic-ratelimit-requests-limitレート制限期間内に許可される最大リクエスト数。
anthropic-ratelimit-requests-remainingレート制限に達するまでの残りのリクエスト数。
anthropic-ratelimit-requests-resetリクエストレート制限がリセットされる時刻(RFC 3339形式)。
anthropic-ratelimit-tokens-limitレート制限期間内に許可される最大トークン数。
anthropic-ratelimit-tokens-remainingレート制限に達するまでの残りのトークン数(千単位で四捨五入)。
anthropic-ratelimit-tokens-resetトークンレート制限がリセットされる時刻(RFC 3339形式)。
anthropic-ratelimit-input-tokens-limitレート制限期間内に許可される最大入力トークン数。
anthropic-ratelimit-input-tokens-remaining

ート制限に達するまでの残りの入力トークン数(千単位で四捨五入)。 | | anthropic-ratelimit-input-tokens-reset | 入力トークンレート制限がリセットされる時刻(RFC 3339形式)。 | | anthropic-ratelimit-output-tokens-limit | レート制限期間内に許可される最大出力トークン数。 | | anthropic-ratelimit-output-tokens-remaining | レート制限に達するまでの残りの出力トークン数(千単位で四捨五入)。 | | anthropic-ratelimit-output-tokens-reset | 出力トークンレート制限がリセットされる時刻(RFC 3339形式)。 | | retry-after | リクエストを再試行できるまでの秒数。 |

anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限的な制限の値を表示します。例えば、ワークスペースの1分あたりのトークン制限を超過した場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限の値が含まれます。ワークスペースの制限が適用されない場合、ヘッダーは合計トークン数の残りを返します(合計は入力トークンと出力トークンの合計)。このアプローチにより、現在のAPI使用に関する最も関連性の高い制約を把握できます。

レガシーレート制限

以前のレート制限は、各モデルクラスに対して1分あたりのリクエスト数、1分あたりのトークン数、1日あたりのトークン数で測定されていました。レート制限を超過すると429エラーが発生します。関連するレート制限を表示するには、レート制限層をクリックしてください。

レート制限はモデルごとに追跡されるため、同じ層内のモデルはレート制限を共有しません。

モデル1分あたりの最大リクエスト数(RPM)1分あたりの最大トークン数(TPM)1日あたりの最大トークン数(TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000

Was this page helpful?