私たちは3つのサービス階層を提供しています:

  • Priority Tier: 時間、可用性、予測可能な価格設定が重要な本番環境にデプロイされたワークフローに最適
  • Standard: パイロットと日常的なユースケースのスケーリングの両方のデフォルト階層
  • Batch: 待機可能または通常の容量外で実行することで恩恵を受ける非同期ワークフローに最適

Standard Tier

standard tierは、すべてのAPIリクエストのデフォルトサービス階層です。この階層のリクエストは、他のすべてのリクエストと並行して優先順位が付けられ、ベストエフォート可用性を観察します。

Priority Tier

この階層のリクエストは、Anthropicへの他のすべてのリクエストよりも優先されます。この優先順位付けは、ピーク時でも”server overloaded”エラーを最小限に抑えるのに役立ちます。

詳細については、Priority Tierを始めるを参照してください

リクエストが階層に割り当てられる方法

リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します:

  • あなたの組織が十分なpriority tier容量の入力トークン毎分を持っている
  • あなたの組織が十分なpriority tier容量の出力トークン毎分を持っている

AnthropicはPriority Tier容量に対する使用量を以下のように計算します:

入力トークン

  • キャッシュ読み取りは、キャッシュから読み取られたトークンあたり0.1トークン
  • キャッシュ書き込みは、5分TTLでキャッシュに書き込まれたトークンあたり1.25トークン
  • キャッシュ書き込みは、1時間TTLでキャッシュに書き込まれたトークンあたり2.00トークン
  • その他のすべての入力トークンは、トークンあたり1トークン

出力トークン

  • トークンあたり1トークン

それ以外の場合、リクエストはstandard tierで処理されます。

Priority Tierに割り当てられたリクエストは、Priority Tier容量と通常のレート制限の両方から引き出されます。 リクエストの処理がレート制限を超える場合、リクエストは拒否されます。

サービス階層の使用

service_tierパラメータを設定することで、リクエストに使用できるサービス階層を制御できます:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 利用可能な場合は自動的にPriority Tierを使用し、standardにフォールバック
)

service_tierパラメータは以下の値を受け入れます:

  • "auto" (デフォルト) - 利用可能な場合はPriority Tier容量を使用し、利用できない場合は他の容量にフォールバック
  • "standard_only" - standard tier容量のみを使用、Priority Tier容量を使用したくない場合に有用

レスポンスのusageオブジェクトには、リクエストに割り当てられたサービス階層も含まれます:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

これにより、リクエストにどのサービス階層が割り当てられたかを判断できます。

Priority Tierコミットメントを持つモデルでservice_tier="auto"をリクエストする場合、これらのレスポンスヘッダーが洞察を提供します:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

これらのヘッダーの存在を使用して、制限を超えていてもリクエストがPriority Tierの対象であったかどうかを検出できます。

Priority Tierを始める

以下に興味がある場合は、Priority Tier容量にコミットすることをお勧めします:

  • より高い可用性:優先的な計算リソースで99.5%のアップタイムを目標
  • コスト管理:予測可能な支出と長期コミットメントの割引
  • 柔軟なオーバーフロー:コミットした容量を超えた場合、自動的にstandard tierにフォールバック

Priority Tierへのコミットには以下の決定が含まれます:

  • 分あたりの入力トークン数
  • 分あたりの出力トークン数
  • コミット期間(1、3、6、または12ヶ月)
  • 特定のモデルバージョン

購入する入力トークンと出力トークンの比率は重要です。Priority Tier容量を実際のトラフィックパターンに合わせてサイジングすることで、購入したトークンの利用率を最大化できます。

サポートされているモデル

Priority Tierは以下でサポートされています:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5(両バージョン)
  • Claude Haiku 3.5

モデルの詳細については、モデル概要ページを確認してください。

Priority Tierへのアクセス方法

Priority Tierの使用を開始するには:

  1. 営業に連絡してプロビジョニングを完了する
  2. (オプション)APIリクエストを更新して、オプションでservice_tierパラメータをautoに設定する
  3. レスポンスヘッダーとAnthropic Consoleを通じて使用量を監視する