Niveles de servicio

Ofrecemos tres niveles de servicio:

Nivel de Prioridad: Mejor para flujos de trabajo desplegados en producción donde el tiempo, la disponibilidad y los precios predecibles son importantes
Estándar: Nivel predeterminado tanto para pilotar como para escalar casos de uso cotidianos
Lote: Mejor para flujos de trabajo asincrónicos que pueden esperar o beneficiarse de estar fuera de tu capacidad normal

Nivel Estándar

El nivel estándar es el nivel de servicio predeterminado para todas las solicitudes de API. Las solicitudes en este nivel se priorizan junto con todas las demás solicitudes y observan disponibilidad de mejor esfuerzo.

Nivel de Prioridad

Las solicitudes en este nivel se priorizan sobre todas las demás solicitudes a Anthropic. Esta priorización ayuda a minimizar los errores de “servidor sobrecargado”, incluso durante las horas pico. Para más información, consulta Comenzar con el Nivel de Prioridad

Cómo se asignan niveles a las solicitudes

Al manejar una solicitud, Anthropic decide asignar una solicitud al Nivel de Prioridad en los siguientes escenarios:

Tu organización tiene suficiente capacidad de nivel de prioridad de tokens de entrada por minuto
Tu organización tiene suficiente capacidad de nivel de prioridad de tokens de salida por minuto

Anthropic cuenta el uso contra la capacidad del Nivel de Prioridad de la siguiente manera: Tokens de Entrada

Lecturas de caché como 0.1 tokens por token leído desde la caché
Escrituras de caché como 1.25 tokens por token escrito en la caché con un TTL de 5 minutos
Escrituras de caché como 2.00 tokens por token escrito en la caché con un TTL de 1 hora
Para solicitudes de contexto largo (>200k tokens de entrada), los tokens de entrada son 2 tokens por token
Todos los demás tokens de entrada son 1 token por token

Tokens de Salida

Para solicitudes de contexto largo (>200k tokens de entrada), los tokens de salida son 1.5 tokens por token
Todos los demás tokens de salida son 1 token por token

De lo contrario, las solicitudes proceden en nivel estándar.

Las solicitudes asignadas al Nivel de Prioridad extraen tanto de la capacidad del Nivel de Prioridad como de los límites de tasa regulares. Si atender la solicitud excedería los límites de tasa, la solicitud es rechazada.

Usando niveles de servicio

Puedes controlar qué niveles de servicio se pueden usar para una solicitud estableciendo el parámetro service_tier:

message = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Usar automáticamente el Nivel de Prioridad cuando esté disponible, recurrir al estándar
)

El parámetro service_tier acepta los siguientes valores:

"auto" (predeterminado) - Usa la capacidad del Nivel de Prioridad si está disponible, recurriendo a tu otra capacidad si no
"standard_only" - Solo usar capacidad de nivel estándar, útil si no quieres usar tu capacidad del Nivel de Prioridad

El objeto usage de la respuesta también incluye el nivel de servicio asignado a la solicitud:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Esto te permite determinar qué nivel de servicio fue asignado a la solicitud. Al solicitar service_tier="auto" con un modelo con un compromiso de Nivel de Prioridad, estos encabezados de respuesta proporcionan información:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Puedes usar la presencia de estos encabezados para detectar si tu solicitud era elegible para el Nivel de Prioridad, incluso si estaba sobre el límite.

Comenzar con el Nivel de Prioridad

Podrías querer comprometerte con la capacidad del Nivel de Prioridad si estás interesado en:

Mayor disponibilidad: Objetivo de 99.5% de tiempo de actividad con recursos computacionales priorizados
Control de Costos: Gasto predecible y descuentos para compromisos más largos
Desbordamiento flexible: Automáticamente recurre al nivel estándar cuando excedes tu capacidad comprometida

Comprometerse con el Nivel de Prioridad implicará decidir:

Un número de tokens de entrada por minuto
Un número de tokens de salida por minuto
Una duración de compromiso (1, 3, 6, o 12 meses)
Una versión específica del modelo

La proporción de tokens de entrada a salida que compres importa. Dimensionar tu capacidad del Nivel de Prioridad para alinearse con tus patrones de tráfico reales te ayuda a maximizar la utilización de tus tokens comprados.

Modelos compatibles

El Nivel de Prioridad es compatible con:

Claude Opus 4.1
Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Sonnet 3.5 (ambas versiones)
Claude Haiku 3.5

Consulta la página de descripción general de modelos para más detalles sobre nuestros modelos.

Cómo acceder al Nivel de Prioridad

Para comenzar a usar el Nivel de Prioridad:

Contacta a ventas para completar el aprovisionamiento
(Opcional) Actualiza tus solicitudes de API para opcionalmente establecer el parámetro service_tier a auto
Monitorea tu uso a través de los encabezados de respuesta y la Consola de Anthropic

Usando las APIs

Referencia de API

SDKs

Ejemplos

APIs de terceros

Usando la Admin API

Soporte y configuración

Niveles de servicio

Nivel Estándar

Nivel de Prioridad

Cómo se asignan niveles a las solicitudes

Usando niveles de servicio

Comenzar con el Nivel de Prioridad

Modelos compatibles

Cómo acceder al Nivel de Prioridad

Usando las APIs

Referencia de API

SDKs

Ejemplos

APIs de terceros

Usando la Admin API

Soporte y configuración

​Nivel Estándar

​Nivel de Prioridad

​Cómo se asignan niveles a las solicitudes

​Usando niveles de servicio

​Comenzar con el Nivel de Prioridad

​Modelos compatibles

​Cómo acceder al Nivel de Prioridad

Nivel Estándar

Nivel de Prioridad

Cómo se asignan niveles a las solicitudes

Usando niveles de servicio

Comenzar con el Nivel de Prioridad

Modelos compatibles

Cómo acceder al Nivel de Prioridad