Abbiamo due tipi di limiti:

  1. Limiti di spesa stabiliscono un costo mensile massimo che un’organizzazione può sostenere per l’utilizzo dell’API.
  2. Limiti di frequenza stabiliscono il numero massimo di richieste API che un’organizzazione può effettuare in un determinato periodo di tempo.

Applichiamo limiti configurati dal servizio a livello di organizzazione, ma è anche possibile impostare limiti configurabili dall’utente per i workspace della propria organizzazione.

Informazioni sui nostri limiti

  • I limiti sono progettati per prevenire l’abuso dell’API, minimizzando l’impatto sui modelli di utilizzo comuni dei clienti.
  • I limiti sono definiti per livello di utilizzo, dove ogni livello è associato a un diverso set di limiti di spesa e di frequenza.
  • La tua organizzazione aumenterà automaticamente i livelli man mano che raggiungi determinate soglie durante l’utilizzo dell’API.
  • I limiti sono impostati a livello di organizzazione. Puoi vedere i limiti della tua organizzazione nella pagina Limiti nella Console Anthropic.
  • Potresti raggiungere i limiti di frequenza su intervalli di tempo più brevi. Ad esempio, una frequenza di 60 richieste al minuto (RPM) potrebbe essere applicata come 1 richiesta al secondo. Brevi raffiche di richieste ad alto volume possono superare il limite di frequenza e causare errori di limite.
  • I limiti descritti di seguito sono i nostri limiti standard. Se stai cercando limiti personalizzati più elevati, contatta il reparto vendite tramite la Console Anthropic.
  • Utilizziamo l’algoritmo token bucket per limitare la frequenza. Ciò significa che la tua capacità viene continuamente reintegrata fino al limite massimo, invece di essere resettata a intervalli fissi.
  • Tutti i limiti qui descritti rappresentano l’utilizzo massimo consentito, non i minimi garantiti. Questi limiti sono progettati per prevenire l’uso eccessivo e garantire un’equa distribuzione delle risorse tra gli utenti.

Limiti di spesa

Ogni livello di utilizzo ha un limite su quanto puoi spendere sull’API ogni mese solare. Una volta raggiunto il limite di spesa del tuo livello, fino a quando non ti qualifichi per il livello successivo, dovrai attendere il mese successivo per poter utilizzare nuovamente l’API.

Per qualificarti per il livello successivo, devi soddisfare un requisito di deposito e un periodo di attesa obbligatorio. I livelli più alti richiedono periodi di attesa più lunghi. Nota: per minimizzare il rischio di sovraccreditare il tuo account, non puoi depositare più del tuo limite di spesa mensile.

Requisiti per avanzare di livello

Livello di utilizzoAcquisto creditiAttesa dopo il primo acquistoUtilizzo massimo mensile
Livello 1$50 giorni$100
Livello 2$407 giorni$500
Livello 3$2007 giorni$1.000
Livello 4$40014 giorni$5.000
Fatturazione mensileN/AN/AN/A

Limiti di frequenza

I nostri limiti di frequenza per l’API Messages sono misurati in richieste al minuto (RPM), token di input al minuto (ITPM) e token di output al minuto (OTPM) per ogni classe di modello. Se superi uno qualsiasi dei limiti di frequenza riceverai un errore 429 che descrive quale limite di frequenza è stato superato, insieme a un’intestazione retry-after che indica quanto tempo attendere.

I limiti ITPM vengono stimati all’inizio di ogni richiesta, e la stima viene adeguata durante la richiesta per riflettere il numero effettivo di token di input utilizzati. L’adeguamento finale conta input_tokens e cache_creation_input_tokens verso i limiti di frequenza ITPM, mentre cache_read_input_tokens non vengono contati (anche se vengono comunque addebitati). In alcuni casi, cache_read_input_tokens vengono contati verso i limiti di frequenza ITPM.

I limiti OTPM vengono stimati in base a max_tokens all’inizio di ogni richiesta, e la stima viene adeguata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati. Se raggiungi i limiti OTPM prima del previsto, prova a ridurre max_tokens per approssimare meglio la dimensione dei tuoi completamenti.

I limiti di frequenza vengono applicati separatamente per ogni modello; pertanto puoi utilizzare diversi modelli fino ai loro rispettivi limiti contemporaneamente. Puoi controllare i tuoi attuali limiti di frequenza e comportamento nella Console Anthropic.

ModelloRichieste massime al minuto (RPM)Token di input massimi al minuto (ITPM)Token di output massimi al minuto (OTPM)
Claude 3.7 Sonnet5020.0008.000
Claude 3.5 Sonnet
2024-10-22
5040.000*8.000
Claude 3.5 Sonnet
2024-06-20
5040.000*8.000
Claude 3.5 Haiku5050.000*10.000
Claude 3 Opus5020.000*4.000
Claude 3 Sonnet5040.000*8.000
Claude 3 Haiku5050.000*10.000

I limiti contrassegnati con asterisco (*) contano cache_read_input_tokens verso l’utilizzo ITPM.

API Message Batches

L’API Message Batches ha il proprio set di limiti di frequenza che sono condivisi tra tutti i modelli. Questi includono un limite di richieste al minuto (RPM) per tutti gli endpoint API e un limite sul numero di richieste batch che possono essere nella coda di elaborazione contemporaneamente. Una “richiesta batch” qui si riferisce a parte di un Message Batch. Puoi creare un Message Batch contenente migliaia di richieste batch, ognuna delle quali conta verso questo limite. Una richiesta batch è considerata parte della coda di elaborazione quando deve ancora essere elaborata con successo dal modello.

Richieste massime al minuto (RPM)Richieste batch massime in coda di elaborazioneRichieste batch massime per batch
50100.000100.000

Impostazione di limiti inferiori per i Workspace

Per proteggere i Workspace nella tua Organizzazione da potenziali utilizzi eccessivi, puoi impostare limiti di spesa e di frequenza personalizzati per Workspace.

Esempio: Se il limite della tua Organizzazione è di 40.000 token di input al minuto e 8.000 token di output al minuto, potresti limitare un Workspace a 30.000 token totali al minuto. Questo protegge gli altri Workspace da potenziali utilizzi eccessivi e garantisce una distribuzione più equa delle risorse nella tua Organizzazione. I token al minuto rimanenti non utilizzati (o di più, se quel Workspace non utilizza il limite) sono quindi disponibili per l’utilizzo da parte di altri Workspace.

Nota:

  • Non puoi impostare limiti sul Workspace predefinito.
  • Se non impostati, i limiti del Workspace corrispondono al limite dell’Organizzazione.
  • I limiti a livello di Organizzazione si applicano sempre, anche se i limiti del Workspace si sommano a di più.
  • Il supporto per i limiti di token di input e output verrà aggiunto ai Workspace in futuro.

Intestazioni di risposta

La risposta API include intestazioni che mostrano il limite di frequenza applicato, l’utilizzo corrente e quando il limite verrà resettato.

Vengono restituite le seguenti intestazioni:

IntestazioneDescrizione
retry-afterIl numero di secondi da attendere prima di poter riprovare la richiesta. I tentativi precedenti falliranno.
anthropic-ratelimit-requests-limitIl numero massimo di richieste consentite all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-requests-remainingIl numero di richieste rimanenti prima di essere limitato.
anthropic-ratelimit-requests-resetIl momento in cui il limite di frequenza delle richieste sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-tokens-limitIl numero massimo di token consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-tokens-remainingIl numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-tokens-resetIl momento in cui il limite di frequenza dei token sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-input-tokens-limitIl numero massimo di token di input consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-input-tokens-remainingIl numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-input-tokens-resetIl momento in cui il limite di frequenza dei token di input sarà completamente reintegrato, fornito in formato RFC 3339.
anthropic-ratelimit-output-tokens-limitIl numero massimo di token di output consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-output-tokens-remainingIl numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-output-tokens-resetIl momento in cui il limite di frequenza dei token di output sarà completamente reintegrato, fornito in formato RFC 3339.

Le intestazioni anthropic-ratelimit-tokens-* mostrano i valori per il limite più restrittivo attualmente in vigore. Ad esempio, se hai superato il limite di token al minuto del Workspace, le intestazioni conterranno i valori del limite di frequenza dei token al minuto del Workspace. Se i limiti del Workspace non si applicano, le intestazioni restituiranno i token totali rimanenti, dove il totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità sul vincolo più rilevante per il tuo utilizzo corrente dell’API.

Was this page helpful?