私たちには2つのタイプの制限があります:

  1. 支出制限は、組織がAPI使用に対して発生させることができる月間最大コストを設定します。
  2. レート制限は、組織が定義された期間内に行うことができるAPIリクエストの最大数を設定します。

私たちは組織レベルでサービス設定の制限を適用しますが、組織のワークスペースに対してユーザー設定可能な制限を設定することもできます。

これらの制限は、StandardとPriority Tierの両方の使用に適用されます。コミット支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、サービスティアをご覧ください。

制限について

  • 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの悪用を防ぐように設計されています。
  • 制限は使用ティアによって定義され、各ティアは異なる支出制限とレート制限のセットに関連付けられています。
  • APIを使用して特定の閾値に達すると、組織は自動的にティアが上がります。 制限は組織レベルで設定されます。組織の制限はAnthropic Console制限ページで確認できます。
  • より短い時間間隔でレート制限に達する可能性があります。例えば、毎分60リクエスト(RPM)のレートは、毎秒1リクエストとして適用される場合があります。高ボリュームでの短時間のリクエストバーストは、レート制限を超えてレート制限エラーを引き起こす可能性があります。
  • 以下に概説する制限は、私たちの標準ティア制限です。より高いカスタム制限や強化されたサービスレベルのためのPriority Tierをお求めの場合は、Anthropic Consoleを通じて営業にお問い合わせください。
  • レート制限にはトークンバケットアルゴリズムを使用しています。これは、固定間隔でリセットされるのではなく、最大制限まで容量が継続的に補充されることを意味します。
  • ここで説明されているすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、意図しない過剰支出を減らし、ユーザー間でのリソースの公平な分配を確保することを目的としています。

支出制限

各使用ティアには、各暦月にAPIに費やすことができる金額の制限があります。ティアの支出制限に達すると、次のティアの資格を得るまで、APIを再び使用できるようになるには翌月まで待つ必要があります。

次のティアの資格を得るには、デポジット要件を満たす必要があります。アカウントへの過剰な資金投入のリスクを最小限に抑えるため、月間支出制限を超えてデポジットすることはできません。

ティア昇格の要件

使用ティアクレジット購入月間最大使用量
ティア1$5$100
ティア2$40$500
ティア3$200$1,000
ティア4$400$5,000
月次請求N/AN/A

レート制限

Messages APIのレート制限は、各モデルクラスに対して毎分リクエスト数(RPM)、毎分入力トークン数(ITPM)、毎分出力トークン数(OTPM)で測定されます。 レート制限のいずれかを超えると、どのレート制限が超えられたかを説明する429エラーと、待機時間を示すretry-afterヘッダーが返されます。

ITPMレート制限は各リクエストの開始時に推定され、実際に使用された入力トークン数を反映するようにリクエスト中に推定値が調整されます。 最終調整では、input_tokenscache_creation_input_tokensがITPMレート制限にカウントされ、cache_read_input_tokensはカウントされません(ただし、課金はされます)。 一部の場合では、cache_read_input_tokensがITPMレート制限にカウントされます。

OTPMレート制限は各リクエストの開始時にmax_tokensに基づいて推定され、実際に使用された出力トークン数を反映するようにリクエストの終了時に推定値が調整されます。 予想より早くOTPM制限に達している場合は、max_tokensを減らして完了のサイズをより適切に近似してみてください。

レート制限は各モデルに対して個別に適用されるため、それぞれの制限まで異なるモデルを同時に使用できます。 現在のレート制限と動作はAnthropic Consoleで確認できます。

Claude Sonnet 4でcontext-1m-2025-08-07ベータヘッダーを使用する長いコンテキストリクエスト(>200Kトークン)の場合、別のレート制限が適用されます。以下の長いコンテキストのレート制限をご覧ください。

モデル毎分最大リクエスト数(RPM)毎分最大入力トークン数(ITPM)毎分最大出力トークン数(OTPM)
Claude Opus 4.x*5030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,0008,000
Claude Sonnet 3.5
2024-06-20
5040,0008,000
Claude Haiku 3.55050,00010,000
Claude Opus 35020,0004,000
Claude Sonnet 35040,0008,000
Claude Haiku 35050,00010,000

* - Opus 4.xレート制限は、Opus 4.0とOpus 4.1の両方にわたる合計トラフィックに適用される総制限です。

† - 制限はcache_read_input_tokensをITPM使用量にカウントします。

Message Batches API

Message Batches APIには、すべてのモデル間で共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントへの毎分リクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエスト数の制限が含まれます。ここでの「バッチリクエスト」は、Message Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成することができ、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。

毎分最大リクエスト数(RPM)処理キュー内の最大バッチリクエスト数バッチあたりの最大バッチリクエスト数
50100,000100,000

長いコンテキストのレート制限

1Mトークンコンテキストウィンドウが有効なClaude Sonnet 4を使用する場合、200Kトークンを超えるリクエストには以下の専用レート制限が適用されます。

1Mトークンコンテキストウィンドウは現在、使用ティア4の組織とカスタムレート制限を持つ組織向けのベータ版です。1MトークンコンテキストウィンドウはClaude Sonnet 4でのみ利用可能です。

毎分最大入力トークン数(ITPM)毎分最大出力トークン数(OTPM)
500,000100,000

500K ITPMレート制限で完全な1Mトークンコンテキストウィンドウにアクセスするには、プロンプトキャッシュを使用できます。

ワークスペースでのより低い制限の設定

組織内のワークスペースを潜在的な過剰使用から保護するため、ワークスペースごとにカスタム支出制限とレート制限を設定できます。

例:組織の制限が毎分40,000入力トークンと毎分8,000出力トークンの場合、1つのワークスペースを毎分30,000総トークンに制限することができます。これにより、他のワークスペースを潜在的な過剰使用から保護し、組織全体でのリソースのより公平な分配を確保します。残りの未使用トークン毎分(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースが使用できるようになります。

注意:

  • デフォルトワークスペースに制限を設定することはできません。
  • 設定されていない場合、ワークスペース制限は組織の制限と一致します。
  • ワークスペース制限の合計が組織制限を超えても、組織全体の制限が常に適用されます。
  • 入力および出力トークン制限のワークスペースサポートは、将来追加される予定です。

レスポンスヘッダー

APIレスポンスには、適用されるレート制限、現在の使用状況、制限がリセットされる時期を示すヘッダーが含まれています。

以下のヘッダーが返されます:

ヘッダー説明
retry-afterリクエストを再試行できるまでの待機秒数。早期の再試行は失敗します。
anthropic-ratelimit-requests-limit任意のレート制限期間内で許可される最大リクエスト数。
anthropic-ratelimit-requests-remainingレート制限される前の残りリクエスト数。
anthropic-ratelimit-requests-resetリクエストレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-tokens-limit任意のレート制限期間内で許可される最大トークン数。
anthropic-ratelimit-tokens-remainingレート制限される前の残りトークン数(最も近い千の位に丸められる)。
anthropic-ratelimit-tokens-resetトークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-input-tokens-limit任意のレート制限期間内で許可される最大入力トークン数。
anthropic-ratelimit-input-tokens-remainingレート制限される前の残り入力トークン数(最も近い千の位に丸められる)。
anthropic-ratelimit-input-tokens-reset入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-output-tokens-limit任意のレート制限期間内で許可される最大出力トークン数。
anthropic-ratelimit-output-tokens-remainingレート制限される前の残り出力トークン数(最も近い千の位に丸められる)。
anthropic-ratelimit-output-tokens-reset出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-priority-input-tokens-limit任意のレート制限期間内で許可される最大Priority Tier入力トークン数。(Priority Tierのみ)
anthropic-priority-input-tokens-remainingレート制限される前の残りPriority Tier入力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ)
anthropic-priority-input-tokens-resetPriority Tier入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ)
anthropic-priority-output-tokens-limit任意のレート制限期間内で許可される最大Priority Tier出力トークン数。(Priority Tierのみ)
anthropic-priority-output-tokens-remainingレート制限される前の残りPriority Tier出力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ)
anthropic-priority-output-tokens-resetPriority Tier出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ)

anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限的な制限の値を表示します。例えば、ワークスペースの毎分トークン制限を超えた場合、ヘッダーにはワークスペースの毎分トークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは残り総トークン数を返し、総数は入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用量に対する最も関連性の高い制約を可視化できます。