Livelli di servizio
Diversi livelli di servizio ti permettono di bilanciare disponibilità, prestazioni e costi prevedibili in base alle esigenze della tua applicazione.
Offriamo tre livelli di servizio:
- Livello Prioritario: Ideale per flussi di lavoro implementati in produzione dove tempo, disponibilità e prezzi prevedibili sono importanti
- Standard: Ideale per traffico irregolare, o quando stai provando una nuova idea
- Batch: Ideale per flussi di lavoro asincroni che possono attendere o beneficiare dell’essere al di fuori della tua normale capacità
Livello Standard
Il livello standard è il livello di servizio predefinito per tutte le richieste API. Le richieste in questo livello vengono prioritizzate insieme a tutte le altre richieste e osservano una disponibilità con il massimo impegno possibile.
Livello Prioritario
Le richieste in questo livello hanno priorità rispetto a tutte le altre richieste ad Anthropic. Questa prioritizzazione ci consente di fornire una garanzia sulla rarità degli errori “server sovraccarico”, anche durante i periodi di picco.
Per ulteriori informazioni, consulta Inizia con il Livello Prioritario
Come vengono assegnati i livelli alle richieste
Quando gestisce una richiesta, Anthropic decide di assegnare una richiesta al Livello Prioritario nei seguenti scenari:
- La tua organizzazione ha sufficiente capacità di livello prioritario di token di input al minuto
- La tua organizzazione ha sufficiente capacità di livello prioritario di token di output al minuto
Anthropic conteggia l’utilizzo rispetto alla capacità del Livello Prioritario come segue:
Token di Input
- Letture dalla cache come 0,1 token per token letto dalla cache
- Scritture nella cache come 1,25 token per token scritto nella cache con un TTL di 5 minuti
- Scritture nella cache come 2,00 token per token scritto nella cache con un TTL di 1 ora
- Tutti gli altri token di input sono 1 token per token
Token di Output
- 1 token per token
Altrimenti, le richieste procedono al livello standard.
Le richieste assegnate al Livello Prioritario attingono sia dalla capacità del Livello Prioritario che dai limiti di frequenza regolari. Se l’elaborazione della richiesta supererebbe i limiti di frequenza, la richiesta viene rifiutata.
Utilizzo dei livelli di servizio
Puoi controllare quali livelli di servizio possono essere utilizzati per una richiesta impostando il parametro service_tier
:
Il parametro service_tier
accetta i seguenti valori:
"auto"
(predefinito) - Utilizza la capacità del Livello Prioritario se disponibile, ripiegando sulla tua altra capacità in caso contrario"standard_only"
- Utilizza solo la capacità del livello standard, utile se non vuoi utilizzare la tua capacità del Livello Prioritario
L’oggetto usage
nella risposta include anche il livello di servizio assegnato alla richiesta:
Questo ti permette di determinare quale livello di servizio è stato assegnato alla richiesta.
Quando richiedi service_tier="auto"
con un modello con un impegno di Livello Prioritario, questi header di risposta forniscono informazioni:
Inizia con il Livello Prioritario
Potresti voler impegnarti per la capacità del Livello Prioritario se sei interessato a:
- Maggiore disponibilità: SLA di uptime del 99,9% con risorse computazionali prioritarie
- Controllo dei costi: Spesa prevedibile e sconti per impegni più lunghi
- Overflow flessibile: Passa automaticamente al livello standard quando superi la tua capacità impegnata
Impegnarsi per il Livello Prioritario comporterà decidere:
- Un numero di token di input al minuto
- Un numero di token di output al minuto
- Una durata dell’impegno (1, 3, 6 o 12 mesi)
- Una versione specifica del modello
Il rapporto tra i token di input e output che acquisti è importante. Dimensionare la tua capacità del Livello Prioritario per allinearla ai tuoi effettivi modelli di traffico aiuta a garantire che utilizzi completamente tutti i token acquistati.
Modelli supportati
Il Livello Prioritario è supportato da:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (entrambe le versioni)
- Claude Haiku 3.5
Consulta la pagina di panoramica dei modelli per maggiori dettagli sui nostri modelli.
Come accedere al Livello Prioritario
Per iniziare a utilizzare il Livello Prioritario:
- Contatta il reparto vendite tramite la Console Anthropic per completare il provisioning
- (Opzionale) Aggiorna le tue richieste API per impostare opzionalmente il parametro
service_tier
suauto
- Monitora il tuo utilizzo tramite gli header di risposta e la Console Anthropic