Limiti di utilizzo
Per mitigare l’uso improprio e gestire la capacità sulla nostra API, abbiamo implementato limiti su quanto un’organizzazione può utilizzare l’API di Claude.
Abbiamo due tipi di limiti:
- Limiti di spesa stabiliscono un costo mensile massimo che un’organizzazione può sostenere per l’utilizzo dell’API.
- Limiti di frequenza stabiliscono il numero massimo di richieste API che un’organizzazione può effettuare in un determinato periodo di tempo.
Applichiamo limiti configurati dal servizio a livello di organizzazione, ma puoi anche impostare limiti configurabili dall’utente per gli spazi di lavoro della tua organizzazione.
Questi limiti si applicano sia all’utilizzo Standard che al Tier Prioritario. Per maggiori informazioni sul Tier Prioritario, che offre livelli di servizio migliorati in cambio di una spesa garantita, consulta Livelli di Servizio.
Informazioni sui nostri limiti
- I limiti sono progettati per prevenire l’abuso dell’API, minimizzando al contempo l’impatto sui modelli di utilizzo comuni dei clienti.
- I limiti sono definiti per livello di utilizzo, dove ogni livello è associato a un diverso insieme di limiti di spesa e di frequenza.
- La tua organizzazione aumenterà automaticamente di livello man mano che raggiungi determinate soglie durante l’utilizzo dell’API. I limiti sono impostati a livello di organizzazione. Puoi vedere i limiti della tua organizzazione nella pagina Limiti nella Console Anthropic.
- Potresti raggiungere i limiti di frequenza su intervalli di tempo più brevi. Ad esempio, una frequenza di 60 richieste al minuto (RPM) potrebbe essere applicata come 1 richiesta al secondo. Brevi raffiche di richieste ad alto volume possono superare il limite di frequenza e causare errori di limite di frequenza.
- I limiti descritti di seguito sono i nostri limiti standard per livello. Se stai cercando limiti personalizzati più elevati o il Tier Prioritario per livelli di servizio migliorati, contatta il reparto vendite tramite la Console Anthropic.
- Utilizziamo l’algoritmo token bucket per limitare la frequenza. Ciò significa che la tua capacità viene continuamente reintegrata fino al limite massimo, piuttosto che essere reimpostata a intervalli fissi.
- Tutti i limiti descritti qui rappresentano l’utilizzo massimo consentito, non minimi garantiti. Questi limiti sono destinati a ridurre la spesa eccessiva involontaria e garantire un’equa distribuzione delle risorse tra gli utenti.
Limiti di spesa
Ogni livello di utilizzo ha un limite su quanto puoi spendere sull’API ogni mese solare. Una volta raggiunto il limite di spesa del tuo livello, fino a quando non ti qualifichi per il livello successivo, dovrai attendere fino al mese successivo per poter utilizzare nuovamente l’API.
Per qualificarti per il livello successivo, devi soddisfare un requisito di deposito. Per minimizzare il rischio di finanziare eccessivamente il tuo account, non puoi depositare più del tuo limite di spesa mensile.
Requisiti per avanzare di livello
Livello di utilizzo | Acquisto crediti | Utilizzo massimo al mese |
---|---|---|
Livello 1 | $5 | $100 |
Livello 2 | $40 | $500 |
Livello 3 | $200 | $1.000 |
Livello 4 | $400 | $5.000 |
Fatturazione mensile | N/A | N/A |
Limiti di frequenza
I nostri limiti di frequenza per l’API Messages sono misurati in richieste al minuto (RPM), token di input al minuto (ITPM) e token di output al minuto (OTPM) per ogni classe di modello.
Se superi uno qualsiasi dei limiti di frequenza, riceverai un errore 429 che descrive quale limite di frequenza è stato superato, insieme a un’intestazione retry-after
che indica quanto tempo attendere.
I limiti di frequenza ITPM vengono stimati all’inizio di ogni richiesta, e la stima viene adeguata durante la richiesta per riflettere il numero effettivo di token di input utilizzati.
La regolazione finale conta input_tokens
e cache_creation_input_tokens
verso i limiti di frequenza ITPM, mentre cache_read_input_tokens
non vengono conteggiati (anche se vengono comunque fatturati).
In alcuni casi, cache_read_input_tokens
vengono conteggiati verso i limiti di frequenza ITPM.
I limiti di frequenza OTPM vengono stimati in base a max_tokens
all’inizio di ogni richiesta, e la stima viene adeguata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati.
Se raggiungi i limiti OTPM prima del previsto, prova a ridurre max_tokens
per approssimare meglio la dimensione dei tuoi completamenti.
I limiti di frequenza vengono applicati separatamente per ogni modello; pertanto puoi utilizzare diversi modelli fino ai rispettivi limiti contemporaneamente. Puoi controllare i tuoi attuali limiti di frequenza e comportamento nella Console Anthropic.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.7 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40.000* | 8.000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40.000* | 8.000 |
Claude Haiku 3.5 | 50 | 50.000* | 10.000 |
Claude Opus 3 | 50 | 20.000* | 4.000 |
Claude Sonnet 3 | 50 | 40.000* | 8.000 |
Claude Haiku 3 | 50 | 50.000* | 10.000 |
I limiti contrassegnati con asterischi (*) contano cache_read_input_tokens
verso l’utilizzo ITPM.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 4 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.7 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.5 2024-10-22 | 50 | 40.000* | 8.000 |
Claude Sonnet 3.5 2024-06-20 | 50 | 40.000* | 8.000 |
Claude Haiku 3.5 | 50 | 50.000* | 10.000 |
Claude Opus 3 | 50 | 20.000* | 4.000 |
Claude Sonnet 3 | 50 | 40.000* | 8.000 |
Claude Haiku 3 | 50 | 50.000* | 10.000 |
I limiti contrassegnati con asterischi (*) contano cache_read_input_tokens
verso l’utilizzo ITPM.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 4 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 3.7 | 1.000 | 40.000 | 16.000 |
Claude Sonnet 3.5 2024-10-22 | 1.000 | 80.000* | 16.000 |
Claude Sonnet 3.5 2024-06-20 | 1.000 | 80.000* | 16.000 |
Claude Haiku 3.5 | 1.000 | 100.000* | 20.000 |
Claude Opus 3 | 1.000 | 40.000* | 8.000 |
Claude Sonnet 3 | 1.000 | 80.000* | 16.000 |
Claude Haiku 3 | 1.000 | 100.000* | 20.000 |
I limiti contrassegnati con asterischi (*) contano cache_read_input_tokens
verso l’utilizzo ITPM.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 4 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 3.7 | 2.000 | 80.000 | 32.000 |
Claude Sonnet 3.5 2024-10-22 | 2.000 | 160.000* | 32.000 |
Claude Sonnet 3.5 2024-06-20 | 2.000 | 160.000* | 32.000 |
Claude Haiku 3.5 | 2.000 | 200.000* | 40.000 |
Claude Opus 3 | 2.000 | 80.000* | 16.000 |
Claude Sonnet 3 | 2.000 | 160.000* | 32.000 |
Claude Haiku 3 | 2.000 | 200.000* | 40.000 |
I limiti contrassegnati con asterischi (*) contano cache_read_input_tokens
verso l’utilizzo ITPM.
Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 4 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 3.7 | 4.000 | 200.000 | 80.000 |
Claude Sonnet 3.5 2024-10-22 | 4.000 | 400.000* | 80.000 |
Claude Sonnet 3.5 2024-06-20 | 4.000 | 400.000* | 80.000 |
Claude Haiku 3.5 | 4.000 | 400.000* | 80.000 |
Claude Opus 3 | 4.000 | 400.000* | 80.000 |
Claude Sonnet 3 | 4.000 | 400.000* | 80.000 |
Claude Haiku 3 | 4.000 | 400.000* | 80.000 |
I limiti contrassegnati con asterischi (*) contano cache_read_input_tokens
verso l’utilizzo ITPM.
Se stai cercando limiti più elevati per un caso d’uso Enterprise, contatta il reparto vendite tramite la Console Anthropic.
API Message Batches
L’API Message Batches ha il proprio set di limiti di frequenza che sono condivisi tra tutti i modelli. Questi includono un limite di richieste al minuto (RPM) per tutti gli endpoint API e un limite sul numero di richieste batch che possono essere nella coda di elaborazione contemporaneamente. Una “richiesta batch” qui si riferisce a parte di un Message Batch. Puoi creare un Message Batch contenente migliaia di richieste batch, ognuna delle quali conta verso questo limite. Una richiesta batch è considerata parte della coda di elaborazione quando deve ancora essere elaborata con successo dal modello.
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
50 | 100.000 | 100.000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
50 | 100.000 | 100.000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
1.000 | 200.000 | 100.000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
2.000 | 300.000 | 100.000 |
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
4.000 | 500.000 | 100.000 |
Se stai cercando limiti più elevati per un caso d’uso Enterprise, contatta il reparto vendite tramite la Console Anthropic.
Impostazione di limiti inferiori per gli Spazi di lavoro
Per proteggere gli Spazi di lavoro nella tua Organizzazione da potenziali utilizzi eccessivi, puoi impostare limiti di spesa e di frequenza personalizzati per Spazio di lavoro.
Esempio: Se il limite della tua Organizzazione è di 40.000 token di input al minuto e 8.000 token di output al minuto, potresti limitare uno Spazio di lavoro a 30.000 token totali al minuto. Questo protegge altri Spazi di lavoro da potenziali utilizzi eccessivi e garantisce una distribuzione più equa delle risorse nella tua Organizzazione. I token al minuto rimanenti non utilizzati (o di più, se quello Spazio di lavoro non utilizza il limite) sono quindi disponibili per l’utilizzo da parte di altri Spazi di lavoro.
Nota:
- Non puoi impostare limiti sullo Spazio di lavoro predefinito.
- Se non impostati, i limiti dello Spazio di lavoro corrispondono al limite dell’Organizzazione.
- I limiti a livello di Organizzazione si applicano sempre, anche se i limiti dello Spazio di lavoro sommati superano tale valore.
- Il supporto per i limiti di token di input e output verrà aggiunto agli Spazi di lavoro in futuro.
Intestazioni di risposta
La risposta API include intestazioni che mostrano il limite di frequenza applicato, l’utilizzo corrente e quando il limite verrà reimpostato.
Vengono restituite le seguenti intestazioni:
Intestazione | Descrizione |
---|---|
retry-after | Il numero di secondi da attendere prima di poter riprovare la richiesta. Tentativi precedenti falliranno. |
anthropic-ratelimit-requests-limit | Il numero massimo di richieste consentite all’interno di qualsiasi periodo di limite di frequenza. |
anthropic-ratelimit-requests-remaining | Il numero di richieste rimanenti prima di essere soggetti a limitazione di frequenza. |
anthropic-ratelimit-requests-reset | L’ora in cui il limite di frequenza delle richieste sarà completamente reintegrato, fornito in formato RFC 3339. |
anthropic-ratelimit-tokens-limit | Il numero massimo di token consentiti all’interno di qualsiasi periodo di limite di frequenza. |
anthropic-ratelimit-tokens-remaining | Il numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere soggetti a limitazione di frequenza. |
anthropic-ratelimit-tokens-reset | L’ora in cui il limite di frequenza dei token sarà completamente reintegrato, fornito in formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Il numero massimo di token di input consentiti all’interno di qualsiasi periodo di limite di frequenza. |
anthropic-ratelimit-input-tokens-remaining | Il numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere soggetti a limitazione di frequenza. |
anthropic-ratelimit-input-tokens-reset | L’ora in cui il limite di frequenza dei token di input sarà completamente reintegrato, fornito in formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Il numero massimo di token di output consentiti all’interno di qualsiasi periodo di limite di frequenza. |
anthropic-ratelimit-output-tokens-remaining | Il numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere soggetti a limitazione di frequenza. |
anthropic-ratelimit-output-tokens-reset | L’ora in cui il limite di frequenza dei token di output sarà completamente reintegrato, fornito in formato RFC 3339. |
anthropic-priority-input-tokens-limit | Il numero massimo di token di input del Tier Prioritario consentiti all’interno di qualsiasi periodo di limite di frequenza. (Solo Tier Prioritario) |
anthropic-priority-input-tokens-remaining | Il numero di token di input del Tier Prioritario rimanenti (arrotondato al migliaio più vicino) prima di essere soggetti a limitazione di frequenza. (Solo Tier Prioritario) |
anthropic-priority-input-tokens-reset | L’ora in cui il limite di frequenza dei token di input del Tier Prioritario sarà completamente reintegrato, fornito in formato RFC 3339. (Solo Tier Prioritario) |
anthropic-priority-output-tokens-limit | Il numero massimo di token di output del Tier Prioritario consentiti all’interno di qualsiasi periodo di limite di frequenza. (Solo Tier Prioritario) |
anthropic-priority-output-tokens-remaining | Il numero di token di output del Tier Prioritario rimanenti (arrotondato al migliaio più vicino) prima di essere soggetti a limitazione di frequenza. (Solo Tier Prioritario) |
anthropic-priority-output-tokens-reset | L’ora in cui il limite di frequenza dei token di output del Tier Prioritario sarà completamente reintegrato, fornito in formato RFC 3339. (Solo Tier Prioritario) |
Le intestazioni anthropic-ratelimit-tokens-*
mostrano i valori per il limite più restrittivo attualmente in vigore. Ad esempio, se hai superato il limite di token al minuto dello Spazio di lavoro, le intestazioni conterranno i valori del limite di frequenza dei token al minuto dello Spazio di lavoro. Se i limiti dello Spazio di lavoro non si applicano, le intestazioni restituiranno il totale dei token rimanenti, dove il totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità sul vincolo più rilevante per il tuo attuale utilizzo dell’API.