Niveles de servicio
Diferentes niveles de servicio te permiten equilibrar la disponibilidad, el rendimiento y los costos predecibles según las necesidades de tu aplicación.
Ofrecemos tres niveles de servicio:
- Nivel Prioritario: Ideal para flujos de trabajo implementados en producción donde el tiempo, la disponibilidad y los precios predecibles son importantes
- Estándar: Ideal para tráfico irregular, o para cuando estás probando una nueva idea
- Lote: Ideal para flujos de trabajo asincrónicos que pueden esperar o beneficiarse de estar fuera de tu capacidad normal
Nivel Estándar
El nivel estándar es el nivel de servicio predeterminado para todas las solicitudes de API. Las solicitudes en este nivel se priorizan junto con todas las demás solicitudes y observan una disponibilidad de mejor esfuerzo.
Nivel Prioritario
Las solicitudes en este nivel tienen prioridad sobre todas las demás solicitudes a Anthropic. Esta priorización nos permite proporcionar una garantía sobre la poca frecuencia de errores de “servidor sobrecargado”, incluso durante las horas pico.
Para más información, consulta Comenzar con el Nivel Prioritario
Cómo se asignan niveles a las solicitudes
Al manejar una solicitud, Anthropic decide asignar una solicitud al Nivel Prioritario en los siguientes escenarios:
- Tu organización tiene suficiente capacidad de nivel prioritario de tokens de entrada por minuto
- Tu organización tiene suficiente capacidad de nivel prioritario de tokens de salida por minuto
Anthropic cuenta el uso contra la capacidad del Nivel Prioritario de la siguiente manera:
Tokens de entrada
- Lecturas de caché como 0.1 tokens por token leído de la caché
- Escrituras de caché como 1.25 tokens por token escrito en la caché con un TTL de 5 minutos
- Escrituras de caché como 2.00 tokens por token escrito en la caché con un TTL de 1 hora
- Todos los demás tokens de entrada son 1 token por token
Tokens de salida
- 1 token por token
De lo contrario, las solicitudes proceden en el nivel estándar.
Las solicitudes asignadas al Nivel Prioritario utilizan tanto la capacidad del Nivel Prioritario como los límites de tasa regulares. Si atender la solicitud excedería los límites de tasa, la solicitud es rechazada.
Uso de niveles de servicio
Puedes controlar qué niveles de servicio se pueden usar para una solicitud configurando el parámetro service_tier
:
El parámetro service_tier
acepta los siguientes valores:
"auto"
(predeterminado) - Usa la capacidad del Nivel Prioritario si está disponible, recurriendo a tu otra capacidad si no lo está"standard_only"
- Solo usa la capacidad del nivel estándar, útil si no quieres usar tu capacidad de Nivel Prioritario
El objeto usage
de la respuesta también incluye el nivel de servicio asignado a la solicitud:
Esto te permite determinar qué nivel de servicio se asignó a la solicitud.
Cuando solicitas service_tier="auto"
con un modelo con un compromiso de Nivel Prioritario, estos encabezados de respuesta proporcionan información:
Comenzar con el Nivel Prioritario
Es posible que desees comprometerte con la capacidad del Nivel Prioritario si estás interesado en:
- Mayor disponibilidad: SLA de tiempo de actividad del 99.9% con recursos computacionales priorizados
- Control de costos: Gasto predecible y descuentos por compromisos más largos
- Desbordamiento flexible: Automáticamente recurre al nivel estándar cuando excedes tu capacidad comprometida
Comprometerse con el Nivel Prioritario implicará decidir:
- Un número de tokens de entrada por minuto
- Un número de tokens de salida por minuto
- Una duración de compromiso (1, 3, 6 o 12 meses)
- Una versión específica del modelo
La proporción de tokens de entrada a salida que compras es importante. Dimensionar tu capacidad de Nivel Prioritario para alinearla con tus patrones de tráfico reales ayuda a garantizar que utilices completamente todos los tokens comprados.
Modelos compatibles
El Nivel Prioritario es compatible con:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (ambas versiones)
- Claude Haiku 3.5
Consulta la página de descripción general de modelos para obtener más detalles sobre nuestros modelos.
Cómo acceder al Nivel Prioritario
Para comenzar a usar el Nivel Prioritario:
- Contacta con ventas a través de la Consola de Anthropic para completar el aprovisionamiento
- (Opcional) Actualiza tus solicitudes de API para configurar opcionalmente el parámetro
service_tier
aauto
- Monitorea tu uso a través de los encabezados de respuesta y la Consola de Anthropic