Límites de uso
Para mitigar el uso indebido y gestionar la capacidad en nuestra API, hemos implementado límites sobre cuánto puede usar una organización la API de Claude.
Tenemos dos tipos de límites:
- Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
- Límites de tasa establecen el número máximo de solicitudes a la API que una organización puede realizar durante un período de tiempo definido.
Aplicamos límites configurados por el servicio a nivel de organización, pero también puede establecer límites configurables por el usuario para los espacios de trabajo de su organización.
Acerca de nuestros límites
- Los límites están diseñados para prevenir el abuso de la API, mientras se minimiza el impacto en los patrones de uso comunes de los clientes.
- Los límites se definen por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y tasa.
- Su organización aumentará de nivel automáticamente a medida que alcance ciertos umbrales mientras usa la API. Los límites se establecen a nivel de organización. Puede ver los límites de su organización en la página de Límites en la Consola de Anthropic.
- Puede alcanzar límites de tasa en intervalos de tiempo más cortos. Por ejemplo, una tasa de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes en alto volumen pueden superar el límite de tasa y resultar en errores de límite de tasa.
- Los límites descritos a continuación son nuestros límites estándar. Si busca límites personalizados más altos, contacte con ventas a través de la Consola de Anthropic.
- Usamos el algoritmo token bucket para hacer la limitación de tasa. Esto significa que su capacidad se repone continuamente hasta su límite máximo, en lugar de restablecerse en intervalos fijos.
- Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están diseñados para prevenir el uso excesivo y asegurar una distribución justa de recursos entre usuarios.
Límites de gasto
Cada nivel de uso tiene un límite en cuánto puede gastar en la API cada mes calendario. Una vez que alcance el límite de gasto de su nivel, hasta que califique para el siguiente nivel, tendrá que esperar hasta el próximo mes para poder usar la API nuevamente.
Para calificar para el siguiente nivel, debe cumplir con un requisito de depósito y un período de espera obligatorio. Los niveles más altos requieren períodos de espera más largos. Tenga en cuenta que, para minimizar el riesgo de sobrefondear su cuenta, no puede depositar más que su límite de gasto mensual.
Requisitos para avanzar de nivel
Nivel de Uso | Compra de Crédito | Espera Después de Primera Compra | Uso Máximo por Mes |
---|---|---|---|
Nivel 1 | $5 | 0 días | $100 |
Nivel 2 | $40 | 7 días | $500 |
Nivel 3 | $200 | 7 días | $1,000 |
Nivel 4 | $400 | 14 días | $5,000 |
Facturación Mensual | N/A | N/A | N/A |
Límites de tasa
Nuestros límites de tasa para la API de Mensajes se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM) y tokens de salida por minuto (OTPM) para cada clase de modelo.
Si excede cualquiera de los límites de tasa, recibirá un error 429 que describe qué límite de tasa se excedió, junto con un encabezado retry-after
que indica cuánto tiempo esperar.
Los límites de ITPM se estiman al comienzo de cada solicitud, y la estimación se ajusta durante la solicitud para reflejar el número real de tokens de entrada utilizados.
El ajuste final cuenta input_tokens
y cache_creation_input_tokens
hacia los límites de tasa ITPM, mientras que cache_read_input_tokens
no se cuentan (aunque sí se facturan).
En algunos casos, cache_read_input_tokens
se cuentan hacia los límites de tasa ITPM.
Los límites de OTPM se estiman basándose en max_tokens
al comienzo de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados.
Si está alcanzando los límites de OTPM antes de lo esperado, intente reducir max_tokens
para aproximar mejor el tamaño de sus completaciones.
Los límites de tasa se aplican separadamente para cada modelo; por lo tanto, puede usar diferentes modelos hasta sus respectivos límites simultáneamente. Puede verificar sus límites de tasa actuales y comportamiento en la Consola de Anthropic.
Modelo | Máximo de solicitudes por minuto (RPM) | Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de salida por minuto (OTPM) |
---|---|---|---|
Claude 3.7 Sonnet | 50 | 20,000 | 8,000 |
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000* | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000* | 8,000 |
Claude 3.5 Haiku | 50 | 50,000* | 10,000 |
Claude 3 Opus | 50 | 20,000* | 4,000 |
Claude 3 Sonnet | 50 | 40,000* | 8,000 |
Claude 3 Haiku | 50 | 50,000* | 10,000 |
Los límites marcados con asteriscos (*) cuentan cache_read_input_tokens
hacia el uso de ITPM.
API de Lotes de Mensajes
La API de Lotes de Mensajes tiene su propio conjunto de límites de tasa que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los puntos finales de la API y un límite en el número de solicitudes por lote que pueden estar en la cola de procesamiento al mismo tiempo. Una “solicitud por lote” aquí se refiere a parte de un Lote de Mensajes. Puede crear un Lote de Mensajes que contenga miles de solicitudes por lote, cada una de las cuales cuenta para este límite. Una solicitud por lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada exitosamente por el modelo.
Máximo de solicitudes por minuto (RPM) | Máximo de solicitudes por lote en cola de procesamiento | Máximo de solicitudes por lote por batch |
---|---|---|
50 | 100,000 | 100,000 |
Estableciendo límites más bajos para Espacios de Trabajo
Para proteger los Espacios de Trabajo en su Organización de un posible uso excesivo, puede establecer límites personalizados de gasto y tasa por Espacio de Trabajo.
Ejemplo: Si el límite de su Organización es de 40,000 tokens de entrada por minuto y 8,000 tokens de salida por minuto, podría limitar un Espacio de Trabajo a 30,000 tokens totales por minuto. Esto protege a otros Espacios de Trabajo de un posible uso excesivo y asegura una distribución más equitativa de recursos en su Organización. Los tokens por minuto restantes no utilizados (o más, si ese Espacio de Trabajo no usa el límite) están entonces disponibles para que otros Espacios de Trabajo los usen.
Nota:
- No puede establecer límites en el Espacio de Trabajo predeterminado.
- Si no se establecen, los límites del Espacio de Trabajo coinciden con el límite de la Organización.
- Los límites a nivel de Organización siempre se aplican, incluso si los límites del Espacio de Trabajo suman más.
- El soporte para límites de tokens de entrada y salida se agregará a los Espacios de Trabajo en el futuro.
Encabezados de respuesta
La respuesta de la API incluye encabezados que le muestran el límite de tasa aplicado, el uso actual y cuándo se restablecerá el límite.
Se devuelven los siguientes encabezados:
Encabezado | Descripción |
---|---|
retry-after | El número de segundos a esperar hasta que pueda reintentar la solicitud. Los reintentos anteriores fallarán. |
anthropic-ratelimit-requests-limit | El número máximo de solicitudes permitidas dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-requests-remaining | El número de solicitudes restantes antes de ser limitado por tasa. |
anthropic-ratelimit-requests-reset | El momento en que el límite de tasa de solicitudes se repondrá completamente, proporcionado en formato RFC 3339. |
anthropic-ratelimit-tokens-limit | El número máximo de tokens permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-tokens-remaining | El número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-tokens-reset | El momento en que el límite de tasa de tokens se repondrá completamente, proporcionado en formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-input-tokens-remaining | El número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-input-tokens-reset | El momento en que el límite de tasa de tokens de entrada se repondrá completamente, proporcionado en formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | El número máximo de tokens de salida permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-output-tokens-remaining | El número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-output-tokens-reset | El momento en que el límite de tasa de tokens de salida se repondrá completamente, proporcionado en formato RFC 3339. |
Los encabezados anthropic-ratelimit-tokens-*
muestran los valores para el límite más restrictivo actualmente en efecto. Por ejemplo, si ha excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de tasa de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no aplican, los encabezados devolverán los tokens totales restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque asegura que tenga visibilidad sobre la restricción más relevante en su uso actual de la API.
Was this page helpful?