APIの悪用を軽減し、容量を管理するため、組織がClaude APIを使用できる量に制限を設けています。
使用階層 | クレジット購入 | 月間最大使用量 |
---|---|---|
Tier 1 | $5 | $100 |
Tier 2 | $40 | $500 |
Tier 3 | $200 | $1,000 |
Tier 4 | $400 | $5,000 |
月次請求 | N/A | N/A |
retry-after
ヘッダーが返されます。
input_tokens
とcache_creation_input_tokens
がITPMレート制限にカウントされます。
cache_read_input_tokens
もITPMレート制限にカウントされます。これらのモデルの最大ITPMは、以下のレート制限表で†でマークされています。他のすべてのモデルでは、cache_read_input_tokens
はITPMレート制限にカウントされません(ただし、課金は行われます)。max_tokens
に基づいて推定され、実際に使用された出力トークン数を反映するようにリクエストの終了時に推定値が調整されます。
予想より早くOTPM制限に達している場合は、max_tokens
を減らして完了のサイズをより適切に近似してみてください。
レート制限は各モデルに個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。
現在のレート制限と動作はAnthropic Consoleで確認できます。
context-1m-2025-08-07
ベータヘッダーを使用する長いコンテキストリクエスト(>200Kトークン)には、別のレート制限が適用されます。以下の長いコンテキストレート制限をご覧ください。モデル | 毎分最大リクエスト数(RPM) | 毎分最大入力トークン数(ITPM) | 毎分最大出力トークン数(OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (非推奨) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (非推奨) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (非推奨) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
をITPM使用量にカウントします。
毎分最大リクエスト数(RPM) | 処理キュー内の最大バッチリクエスト数 | バッチあたりの最大バッチリクエスト数 |
---|---|---|
50 | 100,000 | 100,000 |
毎分最大入力トークン数(ITPM) | 毎分最大出力トークン数(OTPM) |
---|---|
1,000,000 | 200,000 |
ヘッダー | 説明 |
---|---|
retry-after | リクエストを再試行できるまでの待機秒数。早期の再試行は失敗します。 |
anthropic-ratelimit-requests-limit | 任意のレート制限期間内で許可される最大リクエスト数。 |
anthropic-ratelimit-requests-remaining | レート制限される前の残りリクエスト数。 |
anthropic-ratelimit-requests-reset | リクエストレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-tokens-limit | 任意のレート制限期間内で許可される最大トークン数。 |
anthropic-ratelimit-tokens-remaining | レート制限される前の残りトークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-tokens-reset | トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-input-tokens-limit | 任意のレート制限期間内で許可される最大入力トークン数。 |
anthropic-ratelimit-input-tokens-remaining | レート制限される前の残り入力トークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-input-tokens-reset | 入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-output-tokens-limit | 任意のレート制限期間内で許可される最大出力トークン数。 |
anthropic-ratelimit-output-tokens-remaining | レート制限される前の残り出力トークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-output-tokens-reset | 出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-priority-input-tokens-limit | 任意のレート制限期間内で許可される最大Priority Tier入力トークン数。(Priority Tierのみ) |
anthropic-priority-input-tokens-remaining | レート制限される前の残りPriority Tier入力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ) |
anthropic-priority-input-tokens-reset | Priority Tier入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-priority-output-tokens-limit | 任意のレート制限期間内で許可される最大Priority Tier出力トークン数。(Priority Tierのみ) |
anthropic-priority-output-tokens-remaining | レート制限される前の残りPriority Tier出力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ) |
anthropic-priority-output-tokens-reset | Priority Tier出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-ratelimit-tokens-*
ヘッダーは、現在有効な最も制限的な制限の値を表示します。例えば、ワークスペースの毎分トークン制限を超えた場合、ヘッダーにはワークスペースの毎分トークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは残り総トークン数を返し、総計は入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用量に対する最も関連性の高い制約を可視化できます。