Límites de velocidad

Tenemos dos tipos de límites:

Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
Límites de velocidad establecen el número máximo de solicitudes de API que una organización puede hacer durante un período de tiempo definido.

Aplicamos límites configurados por el servicio a nivel de organización, pero también puedes establecer límites configurables por el usuario para los espacios de trabajo de tu organización. Estos límites se aplican tanto al uso de Nivel Estándar como de Nivel Prioritario. Para más información sobre el Nivel Prioritario, que ofrece niveles de servicio mejorados a cambio de gasto comprometido, consulta Niveles de Servicio.

Acerca de nuestros límites

Los límites están diseñados para prevenir el abuso de la API, mientras minimizan el impacto en los patrones de uso comunes de los clientes.
Los límites están definidos por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y velocidad.
Tu organización aumentará de nivel automáticamente a medida que alcances ciertos umbrales mientras usas la API. Los límites se establecen a nivel de organización. Puedes ver los límites de tu organización en la página de Límites en la Consola de Anthropic.
Puedes alcanzar límites de velocidad en intervalos de tiempo más cortos. Por ejemplo, una velocidad de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes en alto volumen pueden superar el límite de velocidad y resultar en errores de límite de velocidad.
Los límites descritos a continuación son nuestros límites de nivel estándar. Si buscas límites más altos y personalizados o Nivel Prioritario para niveles de servicio mejorados, contacta a ventas a través de la Consola de Anthropic.
Usamos el algoritmo de cubo de tokens para hacer la limitación de velocidad. Esto significa que tu capacidad se repone continuamente hasta tu límite máximo, en lugar de restablecerse en intervalos fijos.
Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están destinados a reducir el gasto excesivo no intencional y asegurar una distribución justa de recursos entre los usuarios.

Límites de gasto

Cada nivel de uso tiene un límite sobre cuánto puedes gastar en la API cada mes calendario. Una vez que alcances el límite de gasto de tu nivel, hasta que califiques para el siguiente nivel, tendrás que esperar hasta el próximo mes para poder usar la API nuevamente. Para calificar para el siguiente nivel, debes cumplir con un requisito de depósito. Para minimizar el riesgo de sobrefinanciar tu cuenta, no puedes depositar más que tu límite de gasto mensual.

Requisitos para avanzar de nivel

Nivel de Uso	Compra de Crédito	Uso Máximo por Mes
Nivel 1	$5	$100
Nivel 2	$40	$500
Nivel 3	$200	$1,000
Nivel 4	$400	$5,000
Facturación Mensual	N/A	N/A

Límites de velocidad

Nuestros límites de velocidad para la API de Mensajes se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM), y tokens de salida por minuto (OTPM) para cada clase de modelo. Si excedes cualquiera de los límites de velocidad obtendrás un error 429 describiendo qué límite de velocidad fue excedido, junto con un encabezado retry-after indicando cuánto tiempo esperar.

También podrías encontrar errores 429 debido a límites de aceleración en la API si tu organización tiene un aumento brusco en el uso. Para evitar alcanzar límites de aceleración, aumenta tu tráfico gradualmente y mantén patrones de uso consistentes.

Los límites de velocidad ITPM se estiman al comienzo de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados. El ajuste final cuenta input_tokens y cache_creation_input_tokens hacia los límites de velocidad ITPM.

Para algunos modelos, cache_read_input_tokens también cuentan hacia los límites de velocidad ITPM. El ITPM máximo para estos modelos está marcado con † en las tablas de límites de velocidad a continuación.Para todos los otros modelos, cache_read_input_tokens no cuentan hacia los límites de velocidad ITPM (aunque aún se facturan).

Los límites de velocidad OTPM se estiman basándose en max_tokens al comienzo de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados. Si estás alcanzando límites OTPM antes de lo esperado, intenta reducir max_tokens para aproximar mejor el tamaño de tus completaciones. Los límites de velocidad se aplican por separado para cada modelo; por lo tanto puedes usar diferentes modelos hasta sus respectivos límites simultáneamente. Puedes verificar tus límites de velocidad actuales y comportamiento en la Consola de Anthropic.

Para solicitudes de contexto largo (>200K tokens) cuando uses el encabezado beta context-1m-2025-08-07 con Claude Sonnet 4, se aplican límites de velocidad separados. Ver Límites de velocidad de contexto largo a continuación.

Modelo	Máximo de solicitudes por minuto (RPM)	Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de salida por minuto (OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22 (obsoleto)	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20 (obsoleto)	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3 (obsoleto)	50	20,000^†	4,000
Claude Haiku 3	50	50,000^†	10,000

^{* - El límite de velocidad de Opus 4.x es un límite total que se aplica al tráfico combinado a través de Opus 4.0 y Opus 4.1.} ^{† - El límite cuenta cache_read_input_tokens hacia el uso de ITPM.}

API de Lotes de Mensajes

La API de Lotes de Mensajes tiene su propio conjunto de límites de velocidad que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los endpoints de API y un límite en el número de solicitudes de lote que pueden estar en la cola de procesamiento al mismo tiempo. Una “solicitud de lote” aquí se refiere a parte de un Lote de Mensajes. Puedes crear un Lote de Mensajes que contenga miles de solicitudes de lote, cada una de las cuales cuenta hacia este límite. Una solicitud de lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada exitosamente por el modelo.

Máximo de solicitudes por minuto (RPM)	Máximo de solicitudes de lote en cola de procesamiento	Máximo de solicitudes de lote por lote
50	100,000	100,000

Límites de velocidad de contexto largo

Cuando uses Claude Sonnet 4 con la ventana de contexto de 1M tokens habilitada, los siguientes límites de velocidad dedicados se aplican a solicitudes que excedan 200K tokens.

La ventana de contexto de 1M tokens está actualmente en beta para organizaciones en el nivel de uso 4 y organizaciones con límites de velocidad personalizados. La ventana de contexto de 1M tokens solo está disponible para Claude Sonnet 4.

Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de salida por minuto (OTPM)
1,000,000	200,000

Para obtener el máximo provecho de la ventana de contexto de 1M tokens con límites de velocidad, usa caché de prompts.

Monitoreando tus límites de velocidad en la Consola

Puedes monitorear el uso de tus límites de velocidad en la página de Uso de la Consola de Anthropic. Además de proporcionar gráficos de tokens y solicitudes, la página de Uso proporciona dos gráficos separados de límites de velocidad. Usa estos gráficos para ver qué margen tienes para crecer, cuándo puedes estar alcanzando el uso pico, entender mejor qué límites de velocidad solicitar, o cómo puedes mejorar tus tasas de caché. Los gráficos visualizan una serie de métricas para un límite de velocidad dado (por ejemplo, por modelo):

El gráfico Límite de Velocidad - Tokens de Entrada incluye:
- Máximo de tokens de entrada no cacheados por minuto por hora
- Tu límite actual de tokens de entrada por minuto
- La tasa de caché para tus tokens de entrada (es decir, el porcentaje de tokens de entrada leídos desde el caché)
El gráfico Límite de Velocidad - Tokens de Salida incluye:
- Máximo de tokens de salida por minuto por hora
- Tu límite actual de tokens de salida por minuto

Estableciendo límites más bajos para Espacios de Trabajo

Para proteger los Espacios de Trabajo en tu Organización del posible uso excesivo, puedes establecer límites personalizados de gasto y velocidad por Espacio de Trabajo. Ejemplo: Si el límite de tu Organización es 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, podrías limitar un Espacio de Trabajo a 30,000 tokens totales por minuto. Esto protege otros Espacios de Trabajo del posible uso excesivo y asegura una distribución más equitativa de recursos a través de tu Organización. Los tokens por minuto restantes no utilizados (o más, si ese Espacio de Trabajo no usa el límite) están entonces disponibles para que otros Espacios de Trabajo los usen. Nota:

No puedes establecer límites en el Espacio de Trabajo predeterminado.
Si no se establecen, los límites del Espacio de Trabajo coinciden con el límite de la Organización.
Los límites a nivel de Organización siempre se aplican, incluso si los límites del Espacio de Trabajo suman más.
El soporte para límites de tokens de entrada y salida se agregará a los Espacios de Trabajo en el futuro.

Encabezados de respuesta

La respuesta de la API incluye encabezados que te muestran el límite de velocidad aplicado, el uso actual, y cuándo se restablecerá el límite. Se devuelven los siguientes encabezados:

Encabezado	Descripción
`retry-after`	El número de segundos a esperar hasta que puedas reintentar la solicitud. Los reintentos anteriores fallarán.
`anthropic-ratelimit-requests-limit`	El número máximo de solicitudes permitidas dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-requests-remaining`	El número de solicitudes restantes antes de ser limitado por velocidad.
`anthropic-ratelimit-requests-reset`	El momento cuando el límite de velocidad de solicitudes será completamente repuesto, proporcionado en formato RFC 3339.
`anthropic-ratelimit-tokens-limit`	El número máximo de tokens permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-tokens-remaining`	El número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-tokens-reset`	El momento cuando el límite de velocidad de tokens será completamente repuesto, proporcionado en formato RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-input-tokens-remaining`	El número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-input-tokens-reset`	El momento cuando el límite de velocidad de tokens de entrada será completamente repuesto, proporcionado en formato RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	El número máximo de tokens de salida permitidos dentro de cualquier período de límite de velocidad.
`anthropic-ratelimit-output-tokens-remaining`	El número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por velocidad.
`anthropic-ratelimit-output-tokens-reset`	El momento cuan

do el límite de velocidad de tokens de salida será completamente repuesto, proporcionado en formato RFC 3339. | | anthropic-priority-input-tokens-limit | El número máximo de tokens de entrada de Nivel Prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo Nivel Prioritario) | | anthropic-priority-input-tokens-remaining | El número de tokens de entrada de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo Nivel Prioritario) | | anthropic-priority-input-tokens-reset | El momento cuando el límite de velocidad de tokens de entrada de Nivel Prioritario será completamente repuesto, proporcionado en formato RFC 3339. (Solo Nivel Prioritario) | | anthropic-priority-output-tokens-limit | El número máximo de tokens de salida de Nivel Prioritario permitidos dentro de cualquier período de límite de velocidad. (Solo Nivel Prioritario) | | anthropic-priority-output-tokens-remaining | El número de tokens de salida de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por velocidad. (Solo Nivel Prioritario) | | anthropic-priority-output-tokens-reset | El momento cuando el límite de velocidad de tokens de salida de Nivel Prioritario será completamente repuesto, proporcionado en formato RFC 3339. (Solo Nivel Prioritario) | Los encabezados anthropic-ratelimit-tokens-* muestran los valores para el límite más restrictivo actualmente en efecto. Por ejemplo, si has excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de velocidad de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no se aplican, los encabezados devolverán los tokens totales restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque asegura que tengas visibilidad de la restricción más relevante en tu uso actual de la API.

Usando las APIs

Referencia de API

SDKs

Ejemplos

APIs de terceros

Usando la Admin API

Soporte y configuración

Límites de velocidad

Acerca de nuestros límites

Límites de gasto

Requisitos para avanzar de nivel

Límites de velocidad

API de Lotes de Mensajes

Límites de velocidad de contexto largo

Monitoreando tus límites de velocidad en la Consola

Estableciendo límites más bajos para Espacios de Trabajo

Encabezados de respuesta

Usando las APIs

Referencia de API

SDKs

Ejemplos

APIs de terceros

Usando la Admin API

Soporte y configuración

​Acerca de nuestros límites

​Límites de gasto

​Requisitos para avanzar de nivel

​Límites de velocidad

​API de Lotes de Mensajes

​Límites de velocidad de contexto largo

​Monitoreando tus límites de velocidad en la Consola

​Estableciendo límites más bajos para Espacios de Trabajo

​Encabezados de respuesta

Acerca de nuestros límites

Límites de gasto

Requisitos para avanzar de nivel

Límites de velocidad

API de Lotes de Mensajes

Límites de velocidad de contexto largo

Monitoreando tus límites de velocidad en la Consola

Estableciendo límites más bajos para Espacios de Trabajo

Encabezados de respuesta