我們提供三種服務層級:

  • 優先層級: 最適合部署在生產環境中,時間、可用性和可預測定價很重要的工作流程
  • 標準: 最適合流量突發的情況,或當您嘗試新想法時
  • 批次: 最適合可以等待或受益於在正常容量之外運行的非同步工作流程

標準層級

標準層級是所有 API 請求的預設服務層級。此層級的請求與所有其他請求一起優先處理,並遵循盡力而為的可用性原則。

優先層級

此層級的請求優先於所有其他發送給 Anthropic 的請求。這種優先處理使我們能夠提供關於”伺服器過載”錯誤不頻繁發生的保證,即使在尖峰時段也是如此。

更多資訊,請參閱開始使用優先層級

請求如何被分配層級

處理請求時,Anthropic 在以下情況下決定將請求分配到優先層級:

  • 您的組織擁有足夠的優先層級容量輸入每分鐘令牌數
  • 您的組織擁有足夠的優先層級容量輸出每分鐘令牌數

Anthropic 按以下方式計算優先層級容量的使用情況:

輸入令牌

  • 快取讀取按每個從快取讀取的令牌計為 0.1 個令牌
  • 快取寫入按每個寫入快取的令牌計為 1.25 個令牌(5 分鐘 TTL)
  • 快取寫入按每個寫入快取的令牌計為 2.00 個令牌(1 小時 TTL)
  • 所有其他輸入令牌按 1 比 1 計算

輸出令牌

  • 每個令牌計為 1 個令牌

否則,請求將以標準層級處理。

分配到優先層級的請求會同時使用優先層級容量和常規速率限制。 如果處理請求會超過速率限制,則請求會被拒絕。

使用服務層級

您可以通過設置 service_tier 參數來控制請求可以使用的服務層級:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 在可用時自動使用優先層級,否則回退到標準層級
)

service_tier 參數接受以下值:

  • "auto" (預設) - 如果可用,則使用優先層級容量,否則回退到您的其他容量
  • "standard_only" - 僅使用標準層級容量,如果您不想使用優先層級容量,這很有用

回應的 usage 物件還包括分配給請求的服務層級:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

這使您能夠確定哪個服務層級被分配給了請求。

當使用具有優先層級承諾的模型請求 service_tier="auto" 時,這些回應標頭提供了洞察:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

開始使用優先層級

如果您對以下方面感興趣,您可能希望承諾使用優先層級容量:

  • 更高的可用性:99.9% 運行時間 SLA,優先計算資源
  • 成本控制:可預測的支出和更長承諾的折扣
  • 靈活溢出:當您超過承諾容量時自動回退到標準層級

承諾使用優先層級將涉及決定:

  • 每分鐘輸入令牌數
  • 每分鐘輸出令牌數
  • 承諾期限(1、3、6 或 12 個月)
  • 特定模型版本

您購買的輸入與輸出令牌比例很重要。將您的優先層級容量大小調整為與實際流量模式一致,有助於確保您充分利用所有購買的令牌。

支援的模型

優先層級支援以下模型:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5(兩個版本)
  • Claude Haiku 3.5

查看模型概述頁面以獲取有關我們模型的更多詳細信息。

如何訪問優先層級

要開始使用優先層級:

  1. 通過 Anthropic 控制台聯繫銷售團隊完成配置
  2. (可選)更新您的 API 請求,選擇性地將 service_tier 參數設置為 auto
  3. 通過回應標頭和 Anthropic 控制台監控您的使用情況