Para mitigar el mal uso y gestionar la capacidad en nuestra API, hemos implementado límites sobre cuánto puede usar una organización la API de Claude.
Nivel de Uso | Compra de Crédito | Uso Máximo por Mes |
---|---|---|
Nivel 1 | $5 | $100 |
Nivel 2 | $40 | $500 |
Nivel 3 | $200 | $1,000 |
Nivel 4 | $400 | $5,000 |
Facturación Mensual | N/A | N/A |
retry-after
indicando cuánto tiempo esperar.
input_tokens
y cache_creation_input_tokens
hacia los límites de velocidad ITPM.
cache_read_input_tokens
también cuentan hacia los límites de velocidad ITPM. El ITPM máximo para estos modelos está marcado con † en las tablas de límites de velocidad a continuación.Para todos los otros modelos, cache_read_input_tokens
no cuentan hacia los límites de velocidad ITPM (aunque aún se facturan).max_tokens
al comienzo de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados.
Si estás alcanzando límites OTPM antes de lo esperado, intenta reducir max_tokens
para aproximar mejor el tamaño de tus completaciones.
Los límites de velocidad se aplican por separado para cada modelo; por lo tanto puedes usar diferentes modelos hasta sus respectivos límites simultáneamente.
Puedes verificar tus límites de velocidad actuales y comportamiento en la Consola de Anthropic.
context-1m-2025-08-07
con Claude Sonnet 4, se aplican límites de velocidad separados. Ver Límites de velocidad de contexto largo a continuación.Modelo | Máximo de solicitudes por minuto (RPM) | Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de salida por minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (obsoleto) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (obsoleto) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (obsoleto) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
hacia el uso de ITPM.
Máximo de solicitudes por minuto (RPM) | Máximo de solicitudes de lote en cola de procesamiento | Máximo de solicitudes de lote por lote |
---|---|---|
50 | 100,000 | 100,000 |
Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de salida por minuto (OTPM) |
---|---|
1,000,000 | 200,000 |
Encabezado | Descripción |
---|---|
retry-after | El número de segundos a esperar hasta que puedas reintentar la solicitud. Los reintentos anteriores fallarán. |
anthropic-ratelimit-requests-limit | El número máximo de solicitudes permitidas dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-requests-remaining | El número de solicitudes restantes antes de ser limitado por velocidad. |
anthropic-ratelimit-requests-reset | El momento cuando el límite de velocidad de solicitudes será completamente repuesto, proporcionado en formato RFC 3339. |
anthropic-ratelimit-tokens-limit | El número máximo de tokens permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-tokens-remaining | El número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. |
anthropic-ratelimit-tokens-reset | El momento cuando el límite de velocidad de tokens será completamente repuesto, proporcionado en formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-input-tokens-remaining | El número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. |
anthropic-ratelimit-input-tokens-reset | El momento cuando el límite de velocidad de tokens de entrada será completamente repuesto, proporcionado en formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | El número máximo de tokens de salida permitidos dentro de cualquier período de límite de velocidad. |
anthropic-ratelimit-output-tokens-remaining | El número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. |
anthropic-ratelimit-output-tokens-reset | El momento cuan |
anthropic-priority-input-tokens-limit
| El número máximo de tokens de entrada de Nivel Prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo Nivel Prioritario) |
| anthropic-priority-input-tokens-remaining
| El número de tokens de entrada de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo Nivel Prioritario) |
| anthropic-priority-input-tokens-reset
| El momento cuando el límite de velocidad de tokens de entrada de Nivel Prioritario será completamente repuesto, proporcionado en formato RFC 3339. (Solo Nivel Prioritario) |
| anthropic-priority-output-tokens-limit
| El número máximo de tokens de salida de Nivel Prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo Nivel Prioritario) |
| anthropic-priority-output-tokens-remaining
| El número de tokens de salida de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo Nivel Prioritario) |
| anthropic-priority-output-tokens-reset
| El momento cuando el límite de velocidad de tokens de salida de Nivel Prioritario será completamente repuesto, proporcionado en formato RFC 3339. (Solo Nivel Prioritario) |
Los encabezados anthropic-ratelimit-tokens-*
muestran los valores para el límite más restrictivo actualmente en efecto. Por ejemplo, si has excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de velocidad de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no se aplican, los encabezados devolverán los tokens totales restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque asegura que tengas visibilidad de la restricción más relevante en tu uso actual de la API.