Per mitigare l’uso improprio e gestire la capacità sulla nostra API, abbiamo implementato limiti su quanto un’organizzazione può utilizzare l’API Claude.
Livello di Utilizzo | Acquisto Crediti | Utilizzo Massimo per Mese |
---|---|---|
Livello 1 | $5 | $100 |
Livello 2 | $40 | $500 |
Livello 3 | $200 | $1,000 |
Livello 4 | $400 | $5,000 |
Fatturazione Mensile | N/A | N/A |
retry-after
che indica quanto tempo aspettare.
input_tokens
e cache_creation_input_tokens
verso i limiti di velocità ITPM.
cache_read_input_tokens
contano verso i limiti di velocità ITPM. L’ITPM massimo per questi modelli è contrassegnato con † nelle tabelle dei limiti di velocità qui sotto.Per tutti gli altri modelli, cache_read_input_tokens
non contano verso i limiti di velocità ITPM (anche se vengono comunque fatturati).max_tokens
all’inizio di ogni richiesta, e la stima viene aggiustata alla fine della richiesta per riflettere il numero effettivo di token di output utilizzati.
Se stai raggiungendo i limiti OTPM prima del previsto, prova a ridurre max_tokens
per approssimare meglio la dimensione dei tuoi completamenti.
I limiti di velocità sono applicati separatamente per ogni modello; quindi puoi utilizzare diversi modelli fino ai loro rispettivi limiti simultaneamente.
Puoi controllare i tuoi limiti di velocità attuali e il comportamento nella Console Anthropic.
context-1m-2025-08-07
con Claude Sonnet 4, si applicano limiti di velocità separati. Vedi Limiti di velocità per contesto lungo qui sotto.Modello | Richieste massime al minuto (RPM) | Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecato) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecato) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecato) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
verso l’utilizzo ITPM.
Richieste massime al minuto (RPM) | Richieste batch massime nella coda di elaborazione | Richieste batch massime per batch |
---|---|---|
50 | 100,000 | 100,000 |
Token di input massimi al minuto (ITPM) | Token di output massimi al minuto (OTPM) |
---|---|
1,000,000 | 200,000 |
Header | Descrizione |
---|---|
retry-after | Il numero di secondi da aspettare prima di poter riprovare la richiesta. Tentativi precedenti falliranno. |
anthropic-ratelimit-requests-limit | Il numero massimo di richieste consentite in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-requests-remaining | Il numero di richieste rimanenti prima di essere limitato dalla velocità. |
anthropic-ratelimit-requests-reset | Il momento in cui il limite di velocità delle richieste sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-tokens-limit | Il numero massimo di token consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-tokens-remaining | Il numero di token rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-tokens-reset | Il momento in cui il limite di velocità dei token sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Il numero massimo di token di input consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-input-tokens-remaining | Il numero di token di input rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-input-tokens-reset | Il momento in cui il limite di velocità dei token di input sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Il numero massimo di token di output consentiti in qualsiasi periodo di limite di velocità. |
anthropic-ratelimit-output-tokens-remaining | Il numero di token di output rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. |
anthropic-ratelimit-output-tokens-reset | Il momento in cui il limite di velocità dei token di output sarà completamente riempito, fornito in formato RFC 3339. |
anthropic-priority-input-tokens-limit | Il numero massimo di token di input Priority Tier consentiti in qualsiasi periodo di limite di velocità. (Solo Priority Tier) |
anthropic-priority-input-tokens-remaining | Il numero di token di input Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier) |
anthropic-priority-input-tokens-reset | Il momento in cui il limite di velocità dei token di input Priority Tier sarà completamente riempito, fornito in formato RFC 3339. (Solo Priority Tier) |
anthropic-priority-output-tokens-limit | Il numero massimo di token di output Priority Tier consentiti in qualsiasi periodo di limite di velocità. (Solo Priority Tier) |
anthropic-priority-output-tokens-remaining | Il numero di token di output Priority Tier rimanenti (arrotondato al migliaio più vicino) prima di essere limitato dalla velocità. (Solo Priority Tier) |
anthropic-priority-output-tokens-reset | Il momento in cui il limite di velocità dei token di output Priority Tier sarà completamente riempito, fornito in formato RFC 3339. (Solo Priority Tier) |
anthropic-ratelimit-tokens-*
mostrano i valori per il limite più restrittivo attualmente in vigore. Ad esempio, se hai superato il limite di token al minuto dello Spazio di Lavoro, gli header conterranno i valori del limite di velocità dei token al minuto dello Spazio di Lavoro. Se i limiti dello Spazio di Lavoro non si applicano, gli header restituiranno i token totali rimanenti, dove totale è la somma dei token di input e output. Questo approccio garantisce che tu abbia visibilità sul vincolo più rilevante per il tuo utilizzo API attuale.