Tenemos dos tipos de límites:

  1. Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
  2. Límites de tasa establecen el número máximo de solicitudes a la API que una organización puede realizar durante un período de tiempo definido.

Aplicamos límites configurados por el servicio a nivel de organización, pero también puede establecer límites configurables por el usuario para los espacios de trabajo de su organización.

Estos límites se aplican tanto al uso del Nivel Estándar como del Nivel Prioritario. Para obtener más información sobre el Nivel Prioritario, que ofrece niveles de servicio mejorados a cambio de un gasto comprometido, consulte Niveles de Servicio.

Acerca de nuestros límites

  • Los límites están diseñados para prevenir el abuso de la API, mientras se minimiza el impacto en los patrones de uso comunes de los clientes.
  • Los límites se definen por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y de tasa.
  • Su organización aumentará de nivel automáticamente a medida que alcance ciertos umbrales mientras utiliza la API. Los límites se establecen a nivel de organización. Puede ver los límites de su organización en la página de Límites en la Consola de Anthropic.
  • Puede alcanzar los límites de tasa en intervalos de tiempo más cortos. Por ejemplo, una tasa de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes a un volumen alto pueden superar el límite de tasa y resultar en errores de límite de tasa.
  • Los límites descritos a continuación son nuestros límites de nivel estándar. Si busca límites personalizados más altos o el Nivel Prioritario para niveles de servicio mejorados, contacte con ventas a través de la Consola de Anthropic.
  • Utilizamos el algoritmo de cubo de tokens para realizar la limitación de tasa. Esto significa que su capacidad se repone continuamente hasta su límite máximo, en lugar de restablecerse en intervalos fijos.
  • Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están destinados a reducir el gasto excesivo no intencionado y garantizar una distribución justa de los recursos entre los usuarios.

Límites de gasto

Cada nivel de uso tiene un límite sobre cuánto puede gastar en la API cada mes calendario. Una vez que alcance el límite de gasto de su nivel, hasta que califique para el siguiente nivel, tendrá que esperar hasta el próximo mes para poder usar la API nuevamente.

Para calificar para el siguiente nivel, debe cumplir con un requisito de depósito. Para minimizar el riesgo de sobrefondear su cuenta, no puede depositar más que su límite de gasto mensual.

Requisitos para avanzar de nivel

Nivel de UsoCompra de CréditoUso Máximo por Mes
Nivel 1$5$100
Nivel 2$40$500
Nivel 3$200$1,000
Nivel 4$400$5,000
Facturación MensualN/AN/A

Límites de tasa

Nuestros límites de tasa para la API de Mensajes se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM) y tokens de salida por minuto (OTPM) para cada clase de modelo. Si excede cualquiera de los límites de tasa, recibirá un error 429 que describe qué límite de tasa se excedió, junto con un encabezado retry-after que indica cuánto tiempo esperar.

Los límites de tasa ITPM se estiman al comienzo de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados. El ajuste final cuenta input_tokens y cache_creation_input_tokens hacia los límites de tasa ITPM, mientras que cache_read_input_tokens no se cuentan (aunque sí se facturan). En algunos casos, cache_read_input_tokens se cuentan hacia los límites de tasa ITPM.

Los límites de tasa OTPM se estiman en base a max_tokens al comienzo de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados. Si está alcanzando los límites OTPM antes de lo esperado, intente reducir max_tokens para aproximar mejor el tamaño de sus completados.

Los límites de tasa se aplican por separado para cada modelo; por lo tanto, puede usar diferentes modelos hasta sus respectivos límites simultáneamente. Puede verificar sus límites de tasa actuales y comportamiento en la Consola de Anthropic.

ModeloMáximo de solicitudes por minuto (RPM)Máximo de tokens de entrada por minuto (ITPM)Máximo de tokens de salida por minuto (OTPM)
Claude Opus 45020,0008,000
Claude Sonnet 45020,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22
5040,000*8,000
Claude Sonnet 3.5
2024-06-20
5040,000*8,000
Claude Haiku 3.55050,000*10,000
Claude Opus 35020,000*4,000
Claude Sonnet 35040,000*8,000
Claude Haiku 35050,000*10,000

Los límites marcados con asteriscos (*) cuentan cache_read_input_tokens hacia el uso de ITPM.

API de Lotes de Mensajes

La API de Lotes de Mensajes tiene su propio conjunto de límites de tasa que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los puntos finales de la API y un límite en el número de solicitudes de lote que pueden estar en la cola de procesamiento al mismo tiempo. Una “solicitud de lote” aquí se refiere a parte de un Lote de Mensajes. Puede crear un Lote de Mensajes que contenga miles de solicitudes de lote, cada una de las cuales cuenta para este límite. Se considera que una solicitud de lote forma parte de la cola de procesamiento cuando aún no ha sido procesada con éxito por el modelo.

Máximo de solicitudes por minuto (RPM)Máximo de solicitudes de lote en cola de procesamientoMáximo de solicitudes de lote por lote
50100,000100,000

Establecer límites más bajos para Espacios de Trabajo

Para proteger los Espacios de Trabajo en su Organización de un posible uso excesivo, puede establecer límites personalizados de gasto y de tasa por Espacio de Trabajo.

Ejemplo: Si el límite de su Organización es de 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, podría limitar un Espacio de Trabajo a 30,000 tokens totales por minuto. Esto protege a otros Espacios de Trabajo de un posible uso excesivo y garantiza una distribución más equitativa de los recursos en su Organización. Los tokens por minuto restantes no utilizados (o más, si ese Espacio de Trabajo no utiliza el límite) están entonces disponibles para que otros Espacios de Trabajo los utilicen.

Nota:

  • No puede establecer límites en el Espacio de Trabajo predeterminado.
  • Si no se establecen, los límites del Espacio de Trabajo coinciden con el límite de la Organización.
  • Los límites a nivel de Organización siempre se aplican, incluso si los límites del Espacio de Trabajo suman más.
  • El soporte para límites de tokens de entrada y salida se agregará a los Espacios de Trabajo en el futuro.

Encabezados de respuesta

La respuesta de la API incluye encabezados que le muestran el límite de tasa aplicado, el uso actual y cuándo se restablecerá el límite.

Se devuelven los siguientes encabezados:

EncabezadoDescripción
retry-afterEl número de segundos a esperar hasta que pueda volver a intentar la solicitud. Los reintentos anteriores fallarán.
anthropic-ratelimit-requests-limitEl número máximo de solicitudes permitidas dentro de cualquier período de límite de tasa.
anthropic-ratelimit-requests-remainingEl número de solicitudes restantes antes de ser limitado por tasa.
anthropic-ratelimit-requests-resetEl momento en que el límite de tasa de solicitudes se repondrá completamente, proporcionado en formato RFC 3339.
anthropic-ratelimit-tokens-limitEl número máximo de tokens permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-tokens-remainingEl número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-tokens-resetEl momento en que el límite de tasa de tokens se repondrá completamente, proporcionado en formato RFC 3339.
anthropic-ratelimit-input-tokens-limitEl número máximo de tokens de entrada permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-input-tokens-remainingEl número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-input-tokens-resetEl momento en que el límite de tasa de tokens de entrada se repondrá completamente, proporcionado en formato RFC 3339.
anthropic-ratelimit-output-tokens-limitEl número máximo de tokens de salida permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-output-tokens-remainingEl número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-output-tokens-resetEl momento en que el límite de tasa de tokens de salida se repondrá completamente, proporcionado en formato RFC 3339.
anthropic-priority-input-tokens-limitEl número máximo de tokens de entrada de Nivel Prioritario permitidos dentro de cualquier período de límite de tasa. (Solo Nivel Prioritario)
anthropic-priority-input-tokens-remainingEl número de tokens de entrada de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por tasa. (Solo Nivel Prioritario)
anthropic-priority-input-tokens-resetEl momento en que el límite de tasa de tokens de entrada de Nivel Prioritario se repondrá completamente, proporcionado en formato RFC 3339. (Solo Nivel Prioritario)
anthropic-priority-output-tokens-limitEl número máximo de tokens de salida de Nivel Prioritario permitidos dentro de cualquier período de límite de tasa. (Solo Nivel Prioritario)
anthropic-priority-output-tokens-remainingEl número de tokens de salida de Nivel Prioritario restantes (redondeado al millar más cercano) antes de ser limitado por tasa. (Solo Nivel Prioritario)
anthropic-priority-output-tokens-resetEl momento en que el límite de tasa de tokens de salida de Nivel Prioritario se repondrá completamente, proporcionado en formato RFC 3339. (Solo Nivel Prioritario)

Los encabezados anthropic-ratelimit-tokens-* muestran los valores para el límite más restrictivo actualmente en vigor. Por ejemplo, si ha excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de tasa de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no se aplican, los encabezados devolverán los tokens totales restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque garantiza que tenga visibilidad de la restricción más relevante en su uso actual de la API.

Was this page helpful?