Límites de tasa
Para mitigar el mal uso y gestionar la capacidad en nuestra API, hemos implementado límites en cuanto al uso que una organización puede hacer de la API de Claude.
Tenemos dos tipos de límites:
- Límites de gasto establecen un costo mensual máximo que una organización puede incurrir por el uso de la API.
- Límites de tasa establecen el número máximo de solicitudes a la API que una organización puede hacer durante un período de tiempo definido.
Aplicamos límites configurados por el servicio a nivel de organización, pero también puede establecer límites configurables por el usuario para los espacios de trabajo de su organización.
Acerca de nuestros límites
- Los límites están diseñados para prevenir el abuso de la API, mientras se minimiza el impacto en los patrones de uso comunes de los clientes.
- Los límites se definen por nivel de uso, donde cada nivel está asociado con un conjunto diferente de límites de gasto y tasa.
- Su organización aumentará de nivel automáticamente a medida que alcance ciertos umbrales mientras usa la API. Los límites se establecen a nivel de organización. Puede ver los límites de su organización en la página de Límites en la Consola de Anthropic.
- Puede alcanzar límites de tasa en intervalos de tiempo más cortos. Por ejemplo, una tasa de 60 solicitudes por minuto (RPM) puede aplicarse como 1 solicitud por segundo. Ráfagas cortas de solicitudes a un alto volumen pueden superar el límite de tasa y resultar en errores de límite de tasa.
- Los límites descritos a continuación son nuestros límites estándar. Si busca límites personalizados más altos, contacte con ventas a través de la Consola de Anthropic.
- Utilizamos el algoritmo de cubo de tokens para hacer la limitación de tasa.
- Todos los límites descritos aquí representan el uso máximo permitido, no mínimos garantizados. Estos límites están diseñados para prevenir el uso excesivo y asegurar una distribución justa de recursos entre los usuarios.
Límites de gasto
Cada nivel de uso tiene un límite en cuanto a lo que puede gastar en la API cada mes calendario. Una vez que alcance el límite de gasto de su nivel, hasta que califique para el siguiente nivel, tendrá que esperar hasta el próximo mes para poder usar la API nuevamente.
Para calificar para el siguiente nivel, debe cumplir con un requisito de depósito y un período de espera obligatorio. Los niveles más altos requieren períodos de espera más largos. Tenga en cuenta que, para minimizar el riesgo de sobrefondear su cuenta, no puede depositar más que su límite de gasto mensual.
Requisitos para avanzar de nivel
Nivel de Uso | Compra de Crédito | Espera Después de Primera Compra | Uso Máximo por Mes |
---|---|---|---|
Nivel 1 | $5 | 0 días | $100 |
Nivel 2 | $40 | 7 días | $500 |
Nivel 3 | $200 | 7 días | $1,000 |
Nivel 4 | $400 | 14 días | $5,000 |
Facturación Mensual | N/A | N/A | N/A |
Límites de tasa actualizados
Nuestros límites de tasa para la API de Mensajes se miden en solicitudes por minuto (RPM), tokens de entrada por minuto (ITPM), y tokens de salida por minuto (OTPM) para cada clase de modelo. Si excede cualquiera de los límites de tasa, recibirá un error 429. Haga clic en el nivel de límite de tasa para ver los límites relevantes.
Los límites de tasa se rastrean por modelo. Por lo tanto, los modelos dentro del mismo nivel no comparten un límite de tasa.
Modelo | Máximo de solicitudes por minuto (RPM) | Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de salida por minuto (OTPM) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 8,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 8,000 |
Claude 3.5 Haiku | 50 | 50,000 | 10,000 |
Claude 3 Opus | 50 | 20,000 | 4,000 |
Claude 3 Sonnet | 50 | 40,000 | 8,000 |
Claude 3 Haiku | 50 | 50,000 | 10,000 |
Los límites de tasa OTPM se estiman basándose en max_tokens
al comienzo de cada solicitud, y la estimación se ajusta al final de la solicitud para reflejar el número real de tokens de salida utilizados. Si está alcanzando los límites OTPM antes de lo esperado, intente reducir max_tokens
para que coincida con el tamaño de sus completaciones.
API de Lotes de Mensajes
La API de Lotes de Mensajes tiene su propio conjunto de límites de tasa que se comparten entre todos los modelos. Estos incluyen un límite de solicitudes por minuto (RPM) para todos los puntos finales de la API y un límite en el número de solicitudes por lote que pueden estar en la cola de procesamiento al mismo tiempo. Una “solicitud por lote” aquí se refiere a parte de un Lote de Mensajes. Puede crear un Lote de Mensajes que contenga miles de solicitudes por lote, cada una de las cuales cuenta para este límite. Una solicitud por lote se considera parte de la cola de procesamiento cuando aún no ha sido procesada exitosamente por el modelo.
Máximo de solicitudes por minuto (RPM) | Máximo de solicitudes por lote en cola de procesamiento |
---|---|
50 | 100,000 |
Estableciendo límites más bajos para Espacios de Trabajo
Para proteger los Espacios de Trabajo en su Organización de un posible uso excesivo, puede establecer límites personalizados de gasto y tasa por Espacio de Trabajo.
Ejemplo: Si el límite de su Organización es de 48,000 tokens por minuto (40,000 tokens de entrada y 8,000 tokens de salida), podría limitar un Espacio de Trabajo a 30,000 tokens totales por minuto. Esto protege a otros Espacios de Trabajo de un posible uso excesivo y asegura una distribución más equitativa de recursos en su Organización. Los tokens por minuto restantes sin usar (o más, si ese Espacio de Trabajo no usa el límite) están entonces disponibles para que otros Espacios de Trabajo los usen.
Nota:
- No puede establecer límites en el Espacio de Trabajo predeterminado.
- Si no se establecen, los límites del Espacio de Trabajo coinciden con el límite de la Organización.
- Los límites a nivel de Organización siempre se aplican, incluso si los límites del Espacio de Trabajo suman más.
- El soporte para límites de tokens de entrada y salida se agregará a los Espacios de Trabajo en el futuro.
Encabezados de respuesta
La respuesta de la API incluye encabezados que muestran el límite de tasa aplicado, el uso actual y cuándo se restablecerá el límite.
Se devuelven los siguientes encabezados:
Encabezado | Descripción |
---|---|
anthropic-ratelimit-requests-limit | El número máximo de solicitudes permitidas dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-requests-remaining | El número de solicitudes restantes antes de ser limitado por tasa. |
anthropic-ratelimit-requests-reset | El momento en que se restablecerá el límite de tasa de solicitudes, proporcionado en formato RFC 3339. |
anthropic-ratelimit-tokens-limit | El número máximo de tokens permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-tokens-remaining | El número de tokens restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-tokens-reset | El momento en que se restablecerá el límite de tasa de tokens, proporcionado en formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | El número máximo de tokens de entrada permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-input-tokens-remaining | El número de tokens de entrada restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-input-tokens-reset | El momento en que se restablecerá el límite de tasa de tokens de entrada, proporcionado en formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | El número máximo de tokens de salida permitidos dentro de cualquier período de límite de tasa. |
anthropic-ratelimit-output-tokens-remaining | El número de tokens de salida restantes (redondeado al millar más cercano) antes de ser limitado por tasa. |
anthropic-ratelimit-output-tokens-reset | El momento en que se restablecerá el límite de tasa de tokens de salida, proporcionado en formato RFC 3339. |
retry-after | El número de segundos hasta que pueda reintentar la solicitud. |
Los encabezados anthropic-ratelimit-tokens-*
muestran los valores para el límite más restrictivo actualmente en efecto. Por ejemplo, si ha excedido el límite de tokens por minuto del Espacio de Trabajo, los encabezados contendrán los valores del límite de tasa de tokens por minuto del Espacio de Trabajo. Si los límites del Espacio de Trabajo no aplican, los encabezados devolverán el total de tokens restantes, donde el total es la suma de tokens de entrada y salida. Este enfoque asegura que tenga visibilidad de la restricción más relevante en su uso actual de la API.
Límites de tasa heredados
Nuestros límites de tasa se medían anteriormente en solicitudes por minuto, tokens por minuto y tokens por día para cada clase de modelo. Si excede cualquiera de los límites de tasa, recibirá un error 429. Haga clic en el nivel de límite de tasa para ver los límites relevantes.
Los límites de tasa se rastrean por modelo, por lo tanto, los modelos dentro del mismo nivel no comparten un límite de tasa.
Modelo | Máximo de solicitudes por minuto (RPM) | Máximo de tokens por minuto (TPM) | Máximo de tokens por día (TPD) |
---|---|---|---|
Claude 3.5 Sonnet 2024-10-22 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Sonnet 2024-06-20 | 50 | 40,000 | 1,000,000 |
Claude 3.5 Haiku | 50 | 50,000 | 5,000,000 |
Claude 3 Opus | 50 | 20,000 | 1,000,000 |
Claude 3 Sonnet | 50 | 40,000 | 1,000,000 |
Claude 3 Haiku | 50 | 50,000 | 5,000,000 |
Was this page helpful?