使用 API
服務層級
不同的服務層級讓您可以根據應用程式的需求,在可用性、效能和可預測成本之間取得平衡。
我們提供三種服務層級:
- 優先層級: 最適合部署在生產環境中的工作流程,其中時間、可用性和可預測的定價很重要
- 標準: 用於試驗和擴展日常使用案例的預設層級
- 批次: 最適合可以等待或受益於在正常容量之外的非同步工作流程
標準層級
標準層級是所有 API 請求的預設服務層級。此層級中的請求與所有其他請求一起被優先處理,並遵循盡力而為的可用性。
優先層級
此層級中的請求優先於所有其他對 Anthropic 的請求。這種優先處理有助於最小化”伺服器過載”錯誤,即使在高峰時段也是如此。
如需更多資訊,請參閱開始使用優先層級
請求如何被分配層級
在處理請求時,Anthropic 決定在以下情況下將請求分配給優先層級:
- 您的組織有足夠的優先層級容量輸入每分鐘代幣數
- 您的組織有足夠的優先層級容量輸出每分鐘代幣數
Anthropic 按以下方式計算優先層級容量的使用量:
輸入代幣
- 快取讀取為從快取讀取的每個代幣 0.1 個代幣
- 快取寫入為寫入快取的每個代幣 1.25 個代幣,TTL 為 5 分鐘
- 快取寫入為寫入快取的每個代幣 2.00 個代幣,TTL 為 1 小時
- 所有其他輸入代幣為每個代幣 1 個代幣
輸出代幣
- 每個代幣 1 個代幣
否則,請求以標準層級進行。
分配給優先層級的請求會從優先層級容量和常規速率限制中提取。 如果服務請求會超過速率限制,則請求會被拒絕。
使用服務層級
您可以透過設定 service_tier
參數來控制請求可以使用哪些服務層級:
service_tier
參數接受以下值:
"auto"
(預設)- 如果可用,使用優先層級容量,如果不可用則回退到您的其他容量"standard_only"
- 僅使用標準層級容量,如果您不想使用優先層級容量時很有用
回應 usage
物件也包含分配給請求的服務層級:
這讓您可以確定哪個服務層級被分配給請求。
當使用具有優先層級承諾的模型請求 service_tier="auto"
時,這些回應標頭提供洞察:
您可以使用這些標頭的存在來檢測您的請求是否符合優先層級的條件,即使它超過了限制。
開始使用優先層級
如果您對以下內容感興趣,您可能想要承諾優先層級容量:
- 更高的可用性:目標 99.5% 正常運行時間,具有優先的計算資源
- 成本控制:可預測的支出和更長承諾的折扣
- 靈活的溢出:當您超過承諾容量時自動回退到標準層級
承諾優先層級將涉及決定:
- 每分鐘輸入代幣數
- 每分鐘輸出代幣數
- 承諾期間(1、3、6 或 12 個月)
- 特定的模型版本
您購買的輸入與輸出代幣的比例很重要。調整您的優先層級容量以符合您的實際流量模式有助於您最大化已購買代幣的利用率。
支援的模型
優先層級支援:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5(兩個版本)
- Claude Haiku 3.5
查看模型概覽頁面以獲取有關我們模型的更多詳細資訊。
如何存取優先層級
要開始使用優先層級:
- 聯繫銷售以完成配置
- (可選)更新您的 API 請求以選擇性地將
service_tier
參數設定為auto
- 透過回應標頭和 Anthropic Console 監控您的使用情況