Tenemos dos tipos de límites:

  1. Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
  2. Límites de tasa establecen el número máximo de solicitudes a la API que una organización puede hacer durante un período de tiempo definido.

Aplicamos límites configurados por el servicio a nivel de organización, pero también puede establecer límites configurables por el usuario para los espacios de trabajo de su organización.

Acerca de nuestros límites

  • Los límites están diseñados para prevenir el abuso de la API, mientras se minimiza el impacto en los patrones de uso comunes de los clientes.
  • Los límites se definen por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y tasa.
  • Su organización aumentará de nivel automáticamente a medida que alcance ciertos umbrales mientras usa la API. Los límites se establecen a nivel de organización. Puede ver los límites de su organización en la página de Límites en la Consola de Anthropic.
  • Puede alcanzar límites de tasa en intervalos más cortos. Por ejemplo, una tasa de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes a un alto volumen pueden superar el límite de tasa y resultar en errores de límite de tasa.
  • Los límites descritos a continuación son nuestros límites estándar. Si busca límites personalizados más altos, contacte a ventas a través de la Consola de Anthropic.
  • Usamos el algoritmo de cubo de tokens para hacer la limitación de tasa.
  • Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están diseñados para prevenir el uso excesivo y asegurar una distribución justa de recursos entre usuarios.

Límites de gasto

Cada nivel de uso tiene un límite en cuánto puede gastar en la API cada mes calendario. Una vez que alcance el límite de gasto de su nivel, hasta que califique para el siguiente nivel, tendrá que esperar hasta el próximo mes para poder usar la API nuevamente.

Para calificar para el siguiente nivel, debe cumplir con un requisito de depósito y un período de espera obligatorio. Los niveles más altos requieren períodos de espera más largos. Nota: para minimizar el riesgo de sobrefondear su cuenta, no puede depositar más que su límite de gasto mensual.

Requisitos para avanzar de nivel

Nivel de UsoCompra de CréditoEspera Después de Primera CompraUso Máximo por Mes
Nivel 1$50 días$100
Nivel 2$407 días$500
Nivel 3$2007 días$1,000
Nivel 4$40014 días$5,000
Facturación MensualN/AN/AN/A

Límites de tasa actualizados

Nuestros límites de tasa se medirán en solicitudes por minuto, tokens de entrada por minuto y tokens de salida por minuto para cada clase de modelo. Si excede cualquiera de los límites de tasa, recibirá un error 429. Haga clic en el nivel de límite de tasa para ver los límites relevantes.

Los límites de tasa se rastrean por modelo. Por lo tanto, los modelos dentro del mismo nivel no comparten un límite de tasa.

ModeloMáximo de solicitudes por minuto (RPM)Máximo de tokens de entrada por minuto (ITPM)Máximo de tokens de salida por minuto (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040,0008,000
Claude 3.5 Sonnet
2024-06-20
5040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

Establecer límites más bajos para Espacios de Trabajo

Para proteger los Espacios de Trabajo en su Organización del posible uso excesivo, puede establecer límites personalizados de gasto y tasa por Espacio de Trabajo.

Ejemplo: Si el límite de su Organización es de 48,000 tokens por minuto (40,000 tokens de entrada y 8,000 tokens de salida), podría limitar un Espacio de Trabajo a 30,000 tokens totales por minuto. Esto protege a otros Espacios de Trabajo del posible uso excesivo y asegura una distribución más equitativa de recursos en su Organización. Los tokens por minuto restantes sin usar (o más, si ese Espacio de Trabajo no usa el límite) están entonces disponibles para que otros Espacios de Trabajo los usen.

Nota:

  • No puede establecer límites en el Espacio de Trabajo predeterminado.
  • Si no se establecen, los límites del Espacio de Trabajo coinciden con el límite de la Organización.
  • Los límites a nivel de Organización siempre se aplican, incluso si los límites del Espacio de Trabajo suman más.
  • El soporte para límites de tokens de entrada y salida se agregará a los Espacios de Trabajo en el futuro.

Encabezados de respuesta

La respuesta de la API incluye encabezados que muestran el límite de tasa aplicado, el uso actual y cuándo se restablecerá el límite.

Se devuelven los siguientes encabezados:

EncabezadoDescripción
anthropic-ratelimit-requests-limitEl número máximo de solicitudes permitidas dentro de cualquier período de límite de tasa.
anthropic-ratelimit-requests-remainingEl número de solicitudes restantes antes de ser limitado por tasa.
anthropic-ratelimit-requests-resetEl momento en que se restablecerá el límite de tasa de solicitudes, proporcionado en formato RFC 3339.
anthropic-ratelimit-tokens-limitEl número máximo de tokens permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-tokens-remainingEl número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-tokens-resetEl momento en que se restablecerá el límite de tasa de tokens, proporcionado en formato RFC 3339.
anthropic-ratelimit-input-tokens-limitEl número máximo de tokens de entrada permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-input-tokens-remainingEl número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-input-tokens-resetEl momento en que se restablecerá el límite de tasa de tokens de entrada, proporcionado en formato RFC 3339.
anthropic-ratelimit-output-tokens-limitEl número máximo de tokens de salida permitidos dentro de cualquier período de límite de tasa.
anthropic-ratelimit-output-tokens-remainingEl número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por tasa.
anthropic-ratelimit-output-tokens-resetEl momento en que se restablecerá el límite de tasa de tokens de salida, proporcionado en formato RFC 3339.
retry-afterEl número de segundos hasta que pueda reintentar la solicitud.

Los encabezados anthropic-ratelimit-tokens-* muestran los valores para el límite más restrictivo actualmente en efecto. Por ejemplo, si ha excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de tasa de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no aplican, los encabezados devolverán el total de tokens restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque asegura que tenga visibilidad de la restricción más relevante en su uso actual de la API.

Límites de tasa heredados

Nuestros límites de tasa se medían anteriormente en solicitudes por minuto, tokens por minuto y tokens por día para cada clase de modelo. Si excede cualquiera de los límites de tasa, recibirá un error 429. Haga clic en el nivel de límite de tasa para ver los límites relevantes.

Los límites de tasa se rastrean por modelo, por lo tanto los modelos dentro del mismo nivel no comparten un límite de tasa.

ModeloMáximo de solicitudes por minuto (RPM)Máximo de tokens por minuto (TPM)Máximo de tokens por día (TPD)
Claude 3.5 Sonnet
2024-10-22
5040,0001,000,000
Claude 3.5 Sonnet
2024-06-20
5040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000