Abbiamo due tipi di limiti:

  1. I limiti di spesa stabiliscono un costo mensile massimo che un’organizzazione può sostenere per l’utilizzo dell’API.
  2. I limiti di frequenza stabiliscono il numero massimo di richieste API che un’organizzazione può effettuare in un determinato periodo di tempo.

Applichiamo limiti configurati dal servizio a livello di organizzazione, ma è possibile anche impostare limiti configurabili dall’utente per gli spazi di lavoro della propria organizzazione.

Informazioni sui nostri limiti

  • I limiti sono progettati per prevenire l’abuso dell’API, minimizzando l’impatto sui modelli di utilizzo comuni dei clienti.
  • I limiti sono definiti per livello di utilizzo, dove ogni livello è associato a un diverso set di limiti di spesa e di frequenza.
  • La tua organizzazione aumenterà automaticamente di livello quando raggiungerai determinate soglie durante l’utilizzo dell’API.
  • I limiti sono impostati a livello di organizzazione. Puoi vedere i limiti della tua organizzazione nella pagina Limiti nella Console Anthropic.
  • Potresti raggiungere i limiti di frequenza su intervalli di tempo più brevi. Per esempio, una frequenza di 60 richieste al minuto (RPM) potrebbe essere applicata come 1 richiesta al secondo. Brevi raffiche di richieste ad alto volume possono superare il limite di frequenza e causare errori di limite.
  • I limiti descritti di seguito sono i nostri limiti standard. Se stai cercando limiti personalizzati più elevati, contatta il reparto vendite tramite la Console Anthropic.
  • Utilizziamo l’algoritmo token bucket per limitare la frequenza.
  • Tutti i limiti descritti qui rappresentano l’utilizzo massimo consentito, non minimi garantiti. Questi limiti sono progettati per prevenire l’uso eccessivo e garantire una equa distribuzione delle risorse tra gli utenti.

Limiti di spesa

Ogni livello di utilizzo ha un limite su quanto puoi spendere sull’API ogni mese solare. Una volta raggiunto il limite di spesa del tuo livello, fino a quando non ti qualifichi per il livello successivo, dovrai attendere il mese successivo per poter utilizzare nuovamente l’API.

Per qualificarti per il livello successivo, devi soddisfare un requisito di deposito e un periodo di attesa obbligatorio. I livelli più alti richiedono periodi di attesa più lunghi. Nota che, per minimizzare il rischio di sovraccaricare il tuo account, non puoi depositare più del tuo limite di spesa mensile.

Requisiti per avanzare di livello

Livello di utilizzoAcquisto creditiAttesa dopo il primo acquistoUtilizzo massimo mensile
Livello 1$50 giorni$100
Livello 2$407 giorni$500
Livello 3$2007 giorni$1.000
Livello 4$40014 giorni$5.000
Fatturazione mensileN/DN/DN/D

Limiti di frequenza aggiornati

I nostri limiti di frequenza per l’API Messages sono misurati in richieste al minuto (RPM), token di input al minuto (ITPM) e token di output al minuto (OTPM) per ogni classe di modello. Se superi uno qualsiasi dei limiti di frequenza riceverai un errore 429. Clicca sul livello di limite di frequenza per visualizzare i limiti pertinenti.

I limiti di frequenza sono monitorati per modello. Pertanto, i modelli all’interno dello stesso livello non condividono un limite di frequenza.

ModelloRichieste massime al minuto (RPM)Token di input massimi al minuto (ITPM)Token di output massimi al minuto (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040.0008.000
Claude 3.5 Sonnet
2024-06-20
5040.0008.000
Claude 3.5 Haiku5050.00010.000
Claude 3 Opus5020.0004.000
Claude 3 Sonnet5040.0008.000
Claude 3 Haiku5050.00010.000

I limiti OTPM sono stimati in base a max_tokens all’inizio di ogni richiesta, e la stima viene aggiustata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati. Se raggiungi i limiti OTPM prima del previsto, prova a ridurre max_tokens per far corrispondere la dimensione dei tuoi completamenti.

API Message Batches

L’API Message Batches ha il proprio set di limiti di frequenza che sono condivisi tra tutti i modelli. Questi includono un limite di richieste al minuto (RPM) per tutti gli endpoint API e un limite sul numero di richieste batch che possono essere nella coda di elaborazione contemporaneamente. Una “richiesta batch” qui si riferisce a parte di un Message Batch. Puoi creare un Message Batch contenente migliaia di richieste batch, ognuna delle quali conta per questo limite. Una richiesta batch è considerata parte della coda di elaborazione quando deve ancora essere elaborata con successo dal modello.

Richieste massime al minuto (RPM)Richieste batch massime nella coda di elaborazione
50100.000

Impostazione di limiti inferiori per gli Spazi di lavoro

Per proteggere gli Spazi di lavoro nella tua Organizzazione da potenziali utilizzi eccessivi, puoi impostare limiti di spesa e di frequenza personalizzati per Spazio di lavoro.

Esempio: Se il limite della tua Organizzazione è di 48.000 token al minuto (40.000 token di input e 8.000 token di output), potresti limitare uno Spazio di lavoro a 30.000 token totali al minuto. Questo protegge altri Spazi di lavoro da potenziali utilizzi eccessivi e garantisce una distribuzione più equa delle risorse nella tua Organizzazione. I token al minuto rimanenti non utilizzati (o di più, se quello Spazio di lavoro non utilizza il limite) sono quindi disponibili per l’utilizzo da parte di altri Spazi di lavoro.

Nota:

  • Non puoi impostare limiti sullo Spazio di lavoro predefinito.
  • Se non impostati, i limiti dello Spazio di lavoro corrispondono al limite dell’Organizzazione.
  • I limiti a livello di Organizzazione si applicano sempre, anche se i limiti degli Spazi di lavoro sommati superano tale valore.
  • Il supporto per i limiti di token di input e output verrà aggiunto agli Spazi di lavoro in futuro.

Header di risposta

La risposta API include header che mostrano il limite di frequenza applicato, l’utilizzo corrente e quando il limite verrà azzerato.

Vengono restituiti i seguenti header:

HeaderDescrizione
anthropic-ratelimit-requests-limitIl numero massimo di richieste consentite all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-requests-remainingIl numero di richieste rimanenti prima di essere limitato.
anthropic-ratelimit-requests-resetIl momento in cui il limite di frequenza delle richieste verrà azzerato, fornito in formato RFC 3339.
anthropic-ratelimit-tokens-limitIl numero massimo di token consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-tokens-remainingIl numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-tokens-resetIl momento in cui il limite di frequenza dei token verrà azzerato, fornito in formato RFC 3339.
anthropic-ratelimit-input-tokens-limitIl numero massimo di token di input consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-input-tokens-remainingIl numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-input-tokens-resetIl momento in cui il limite di frequenza dei token di input verrà azzerato, fornito in formato RFC 3339.
anthropic-ratelimit-output-tokens-limitIl numero massimo di token di output consentiti all’interno di qualsiasi periodo di limite di frequenza.
anthropic-ratelimit-output-tokens-remainingIl numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere limitato.
anthropic-ratelimit-output-tokens-resetIl momento in cui il limite di frequenza dei token di output verrà azzerato, fornito in formato RFC 3339.
retry-afterIl numero di secondi prima di poter riprovare la richiesta.

Gli header anthropic-ratelimit-tokens-* mostrano i valori per il limite più restrittivo attualmente in vigore. Per esempio, se hai superato il limite di token al minuto dello Spazio di lavoro, gli header conterranno i valori del limite di frequenza dei token al minuto dello Spazio di lavoro. Se i limiti dello Spazio di lavoro non si applicano, gli header restituiranno il totale dei token rimanenti, dove il totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità sul vincolo più rilevante per il tuo utilizzo corrente dell’API.

Limiti di frequenza precedenti

I nostri limiti di frequenza erano precedentemente misurati in richieste al minuto, token al minuto e token al giorno per ogni classe di modello. Se superi uno qualsiasi dei limiti di frequenza riceverai un errore 429. Clicca sul livello di limite di frequenza per visualizzare i limiti pertinenti.

I limiti di frequenza sono monitorati per modello, quindi i modelli all’interno dello stesso livello non condividono un limite di frequenza.

ModelloRichieste massime al minuto (RPM)Token massimi al minuto (TPM)Token massimi al giorno (TPD)
Claude 3.5 Sonnet
2024-10-22
5040.0001.000.000
Claude 3.5 Sonnet
2024-06-20
5040.0001.000.000
Claude 3.5 Haiku5050.0005.000.000
Claude 3 Opus5020.0001.000.000
Claude 3 Sonnet5040.0001.000.000
Claude 3 Haiku5050.0005.000.000

Was this page helpful?