提出請求
服務層級
不同的服務層級讓您能夠根據應用程式需求來平衡可用性、效能和可預測的成本。
我們提供三種服務層級:
- 優先層級: 最適合部署在生產環境中,時間、可用性和可預測定價很重要的工作流程
- 標準: 最適合流量突發的情況,或當您嘗試新想法時
- 批次: 最適合可以等待或受益於在正常容量之外運行的非同步工作流程
標準層級
標準層級是所有 API 請求的預設服務層級。此層級的請求與所有其他請求一起優先處理,並遵循盡力而為的可用性原則。
優先層級
此層級的請求優先於所有其他發送給 Anthropic 的請求。這種優先處理使我們能夠提供關於”伺服器過載”錯誤不頻繁發生的保證,即使在尖峰時段也是如此。
更多資訊,請參閱開始使用優先層級
請求如何被分配層級
處理請求時,Anthropic 在以下情況下決定將請求分配到優先層級:
- 您的組織擁有足夠的優先層級容量輸入每分鐘令牌數
- 您的組織擁有足夠的優先層級容量輸出每分鐘令牌數
Anthropic 按以下方式計算優先層級容量的使用情況:
輸入令牌
- 快取讀取按每個從快取讀取的令牌計為 0.1 個令牌
- 快取寫入按每個寫入快取的令牌計為 1.25 個令牌(5 分鐘 TTL)
- 快取寫入按每個寫入快取的令牌計為 2.00 個令牌(1 小時 TTL)
- 所有其他輸入令牌按 1 比 1 計算
輸出令牌
- 每個令牌計為 1 個令牌
否則,請求將以標準層級處理。
分配到優先層級的請求會同時使用優先層級容量和常規速率限制。 如果處理請求會超過速率限制,則請求會被拒絕。
使用服務層級
您可以通過設置 service_tier
參數來控制請求可以使用的服務層級:
service_tier
參數接受以下值:
"auto"
(預設) - 如果可用,則使用優先層級容量,否則回退到您的其他容量"standard_only"
- 僅使用標準層級容量,如果您不想使用優先層級容量,這很有用
回應的 usage
物件還包括分配給請求的服務層級:
這使您能夠確定哪個服務層級被分配給了請求。
當使用具有優先層級承諾的模型請求 service_tier="auto"
時,這些回應標頭提供了洞察:
開始使用優先層級
如果您對以下方面感興趣,您可能希望承諾使用優先層級容量:
- 更高的可用性:99.9% 運行時間 SLA,優先計算資源
- 成本控制:可預測的支出和更長承諾的折扣
- 靈活溢出:當您超過承諾容量時自動回退到標準層級
承諾使用優先層級將涉及決定:
- 每分鐘輸入令牌數
- 每分鐘輸出令牌數
- 承諾期限(1、3、6 或 12 個月)
- 特定模型版本
您購買的輸入與輸出令牌比例很重要。將您的優先層級容量大小調整為與實際流量模式一致,有助於確保您充分利用所有購買的令牌。
支援的模型
優先層級支援以下模型:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5(兩個版本)
- Claude Haiku 3.5
查看模型概述頁面以獲取有關我們模型的更多詳細信息。
如何訪問優先層級
要開始使用優先層級:
- 通過 Anthropic 控制台聯繫銷售團隊完成配置
- (可選)更新您的 API 請求,選擇性地將
service_tier
參數設置為auto
- 通過回應標頭和 Anthropic 控制台監控您的使用情況