レート制限
APIの不正使用を防ぎ、容量を管理するため、組織がClaude APIを使用できる量に制限を設けています。
私たちには2種類の制限があります:
- 支出制限は、組織がAPI使用に対して発生させることができる月間コストの上限を設定します。
- レート制限は、組織が一定期間内に行うことができるAPIリクエストの最大数を設定します。
サービスで設定された制限は組織レベルで適用されますが、組織のワークスペースに対してユーザーが設定可能な制限を設けることもできます。
制限について
- 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの乱用を防ぐように設計されています。
- 制限は使用層によって定義され、各層には異なる支出制限とレート制限が関連付けられています。
- APIを使用する中で特定のしきい値に達すると、組織は自動的に上位層に移行します。 制限は組織レベルで設定されます。組織の制限はAnthropic Consoleの制限ページで確認できます。
- より短い時間間隔でレート制限に達する可能性があります。例えば、1分あたり60リクエスト(RPM)のレートは、1秒あたり1リクエストとして適用される場合があります。高いボリュームの短時間のリクエストバーストはレート制限を超過し、レート制限エラーを引き起こす可能性があります。
- 以下に示す制限は標準的な制限です。より高いカスタム制限を求める場合は、Anthropic Consoleを通じて営業部門にお問い合わせください。
- レート制限にはトークンバケットアルゴリズムを使用しています。
- ここで説明するすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、過剰使用を防ぎ、ユーザー間でリソースを公平に分配することを目的としています。
支出制限
各使用層には、毎月のAPIに使用できる金額の制限があります。層の支出制限に達すると、次の層に昇格するまでは、翌月までAPIを使用することはできません。
次の層に昇格するには、デポジット要件と必須の待機期間を満たす必要があります。上位層ではより長い待機期間が必要です。なお、アカウントの過剰入金のリスクを最小限に抑えるため、月間支出制限を超えて入金することはできません。
層昇格の要件
使用層 | クレジット購入 | 初回購入後の待機期間 | 月間最大使用額 |
---|---|---|---|
層1 | $5 | 0日 | $100 |
層2 | $40 | 7日 | $500 |
層3 | $200 | 7日 | $1,000 |
層4 | $400 | 14日 | $5,000 |
月次請求 | 該当なし | 該当なし | 該当なし |
更新されたレート制限
レート制限は、各モデルクラスに対して1分あたりのリクエスト数、入力トークン数、出力トークン数で測定されます。レート制限を超過すると429エラーが発生します。レート制限層をクリックすると、関連するレート制限が表示されます。
レート制限はモデルごとに追跡されます。したがって、同じ層内のモデルはレート制限を共有しません。
モデル | 1分あたりの最大リクエスト数(RPM) | 1分あたりの最大入力トークン数(ITPM) | 1分あたりの最大出力トークン数(OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 8,000 |
Claude 3.5 Haiku | 50 | 50,000 | 10,000 |
Claude 3 Opus | 50 | 20,000 | 4,000 |
Claude 3 Sonnet | 50 | 40,000 | 8,000 |
Claude 3 Haiku | 50 | 50,000 | 10,000 |
ワークスペースの制限値の設定
組織内のワークスペースの潜在的な過剰使用から保護するために、ワークスペースごとにカスタムの支出制限とレート制限を設定できます。
例:組織の制限が1分あたり48,000トークン(入力トークン40,000と出力トークン8,000)の場合、1つのワークスペースを1分あたり30,000トークンに制限することができます。これにより、他のワークスペースを潜在的な過剰使用から保護し、組織全体でリソースをより公平に分配することができます。残りの未使用トークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースが使用できます。
注意:
- デフォルトのワークスペースには制限を設定できません。
- 設定されていない場合、ワークスペースの制限は組織の制限と一致します。
- ワークスペースの制限の合計が組織全体の制限を超えていても、組織全体の制限が常に適用されます。
- 入力トークンと出力トークンの制限のワークスペースへのサポートは将来追加される予定です。
レスポンスヘッダー
APIレスポンスには、適用されるレート制限、現在の使用状況、制限がリセットされる時期を示すヘッダーが含まれます。
以下のヘッダーが返されます:
ヘッダー | 説明 |
---|---|
anthropic-ratelimit-requests-limit | レート制限期間内に許可されるリクエストの最大数。 |
anthropic-ratelimit-requests-remaining | レート制限に達するまでの残りのリクエスト数。 |
anthropic-ratelimit-requests-reset | リクエストレート制限がリセットされる時刻(RFC 3339形式)。 |
anthropic-ratelimit-tokens-limit | レート制限期間内に許可されるトークンの最大数。 |
anthropic-ratelimit-tokens-remaining | レート制限に達するまでの残りのトークン数(千単位で四捨五入)。 |
anthropic-ratelimit-tokens-reset | トークンレート制限がリセットされる時刻(RFC 3339形式)。 |
anthropic-ratelimit-input-tokens-limit | レート制限期間内に許可される入力トークンの最大数。 |
anthropic-ratelimit-input-tokens-remaining | レート制限に達するまでの残りの入力トークン数(千単位で四捨五入)。 |
anthropic-ratelimit-input-tokens-reset | 入力トークンレート制限がリセットされる時刻(RFC 3339形式)。 |
anthropic-ratelimit-output-tokens-limit | レート制限期間内に許可される出力トークンの最大数。 |
anthropic-ratelimit-output-tokens-remaining | レート制限に達するまでの残りの出力トークン数(千単位で四捨五入)。 |
anthropic-ratelimit-output-tokens-reset | 出力トークンレート制限がリセットされる時刻(RFC 3339形式)。 |
retry-after | リクエストを再試行できるまでの秒数。 |
anthropic-ratelimit-tokens-*
ヘッダーには、現在有効な最も制限的な制限の値が表示されます。例えば、ワークスペースの1分あたりのトークン制限を超過した場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは合計トークン数(入力トークンと出力トークンの合計)の残りを返します。このアプローチにより、現在のAPI使用に関する最も関連性の高い制約が確認できます。
レガシーレート制限
以前のレート制限は、各モデルクラスに対して1分あたりのリクエスト数、1分あたりのトークン数、1日あたりのトークン数で測定されていました。レート制限を超過すると429エラーが発生します。レート制限層をクリックすると、関連するレート制限が表示されます。
レート制限はモデルごとに追跡されるため、同じ層内のモデルはレート制限を共有しません。
モデル | 1分あたりの最大リクエスト数(RPM) | 1分あたりの最大トークン数(TPM) | 1日あたりの最大トークン数(TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Haiku | 50 | 50,000 | 5,000,000 |
Claude 3 Opus | 50 | 20,000 | 1,000,000 |
Claude 3 Sonnet | 50 | 40,000 | 1,000,000 |
Claude 3 Haiku | 50 | 50,000 | 5,000,000 |