Offriamo tre livelli di servizio:

  • Livello Prioritario: Ideale per flussi di lavoro distribuiti in produzione dove tempo, disponibilità e prezzi prevedibili sono importanti
  • Standard: Livello predefinito sia per progetti pilota che per scalare casi d’uso quotidiani
  • Batch: Ideale per flussi di lavoro asincroni che possono aspettare o beneficiare dall’essere al di fuori della tua capacità normale

Livello Standard

Il livello standard è il livello di servizio predefinito per tutte le richieste API. Le richieste in questo livello sono prioritizzate insieme a tutte le altre richieste e osservano la disponibilità best-effort.

Livello Prioritario

Le richieste in questo livello sono prioritizzate rispetto a tutte le altre richieste ad Anthropic. Questa prioritizzazione aiuta a minimizzare gli errori “server overloaded”, anche durante i picchi di traffico.

Per maggiori informazioni, vedi Inizia con il Livello Prioritario

Come vengono assegnati i livelli alle richieste

Quando gestisce una richiesta, Anthropic decide di assegnare una richiesta al Livello Prioritario nei seguenti scenari:

  • La tua organizzazione ha sufficiente capacità del livello prioritario di token di input per minuto
  • La tua organizzazione ha sufficiente capacità del livello prioritario di token di output per minuto

Anthropic conta l’utilizzo contro la capacità del Livello Prioritario come segue:

Token di Input

  • Letture cache come 0.1 token per token letto dalla cache
  • Scritture cache come 1.25 token per token scritto nella cache con un TTL di 5 minuti
  • Scritture cache come 2.00 token per token scritto nella cache con un TTL di 1 ora
  • Tutti gli altri token di input sono 1 token per token

Token di Output

  • 1 token per token

Altrimenti, le richieste procedono al livello standard.

Le richieste assegnate al Livello Prioritario attingono sia dalla capacità del Livello Prioritario che dai limiti di velocità regolari. Se servire la richiesta supererebbe i limiti di velocità, la richiesta viene rifiutata.

Utilizzo dei livelli di servizio

Puoi controllare quali livelli di servizio possono essere utilizzati per una richiesta impostando il parametro service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Usa automaticamente il Livello Prioritario quando disponibile, fallback allo standard
)

Il parametro service_tier accetta i seguenti valori:

  • "auto" (predefinito) - Usa la capacità del Livello Prioritario se disponibile, ripiegando sulla tua altra capacità se non lo è
  • "standard_only" - Usa solo la capacità del livello standard, utile se non vuoi utilizzare la tua capacità del Livello Prioritario

L’oggetto usage della risposta include anche il livello di servizio assegnato alla richiesta:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Questo ti permette di determinare quale livello di servizio è stato assegnato alla richiesta.

Quando richiedi service_tier="auto" con un modello con un impegno del Livello Prioritario, queste intestazioni di risposta forniscono informazioni:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Puoi utilizzare la presenza di queste intestazioni per rilevare se la tua richiesta era idonea per il Livello Prioritario, anche se era oltre il limite.

Inizia con il Livello Prioritario

Potresti voler impegnarti nella capacità del Livello Prioritario se sei interessato a:

  • Maggiore disponibilità: Obiettivo del 99.5% di uptime con risorse computazionali prioritizzate
  • Controllo dei costi: Spesa prevedibile e sconti per impegni più lunghi
  • Overflow flessibile: Ripiego automatico al livello standard quando superi la tua capacità impegnata

Impegnarsi nel Livello Prioritario comporterà decidere:

  • Un numero di token di input per minuto
  • Un numero di token di output per minuto
  • Una durata dell’impegno (1, 3, 6 o 12 mesi)
  • Una versione specifica del modello

Il rapporto tra token di input e output che acquisti è importante. Dimensionare la tua capacità del Livello Prioritario per allinearsi ai tuoi modelli di traffico effettivi ti aiuta a massimizzare l’utilizzo dei tuoi token acquistati.

Modelli supportati

Il Livello Prioritario è supportato da:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (entrambe le versioni)
  • Claude Haiku 3.5

Controlla la pagina panoramica dei modelli per maggiori dettagli sui nostri modelli.

Come accedere al Livello Prioritario

Per iniziare a utilizzare il Livello Prioritario:

  1. Contatta le vendite per completare il provisioning
  2. (Opzionale) Aggiorna le tue richieste API per impostare opzionalmente il parametro service_tier su auto
  3. Monitora il tuo utilizzo attraverso le intestazioni di risposta e la Console Anthropic