Oferecemos três níveis de serviço:

  • Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
  • Padrão: Nível padrão tanto para pilotar quanto para escalar casos de uso cotidianos
  • Lote: Melhor para fluxos de trabalho assíncronos que podem aguardar ou se beneficiar de estar fora da sua capacidade normal

Nível Padrão

O nível padrão é o nível de serviço padrão para todas as solicitações de API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.

Nível Prioritário

As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Esta priorização ajuda a minimizar erros de “servidor sobrecarregado”, mesmo durante horários de pico.

Para mais informações, veja Começar com o Nível Prioritário

Como as solicitações recebem níveis atribuídos

Ao lidar com uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:

  • Sua organização tem tokens de entrada por minuto de capacidade de nível prioritário suficientes
  • Sua organização tem tokens de saída por minuto de capacidade de nível prioritário suficientes

A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma:

Tokens de Entrada

  • Leituras de cache como 0,1 tokens por token lido do cache
  • Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
  • Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
  • Todos os outros tokens de entrada são 1 token por token

Tokens de Saída

  • 1 token por token

Caso contrário, as solicitações prosseguem no nível padrão.

Solicitações atribuídas ao Nível Prioritário consomem tanto da capacidade do Nível Prioritário quanto dos limites de taxa regulares. Se atender à solicitação excederia os limites de taxa, a solicitação é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)

O parâmetro service_tier aceita os seguintes valores:

  • "auto" (padrão) - Usa a capacidade do Nível Prioritário se disponível, recorrendo à sua outra capacidade se não
  • "standard_only" - Usa apenas capacidade de nível padrão, útil se você não quiser usar sua capacidade do Nível Prioritário

O objeto usage da resposta também inclui o nível de serviço atribuído à solicitação:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite determinar qual nível de serviço foi atribuído à solicitação.

Ao solicitar service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença destes cabeçalhos para detectar se sua solicitação era elegível para o Nível Prioritário, mesmo se estava acima do limite.

Começar com o Nível Prioritário

Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:

  • Maior disponibilidade: Meta de 99,5% de tempo de atividade com recursos computacionais priorizados
  • Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
  • Overflow flexível: Automaticamente recorre ao nível padrão quando você excede sua capacidade comprometida

Comprometer-se com o Nível Prioritário envolverá decidir:

  • Um número de tokens de entrada por minuto
  • Um número de tokens de saída por minuto
  • Uma duração de compromisso (1, 3, 6 ou 12 meses)
  • Uma versão específica do modelo

A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade do Nível Prioritário para alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização dos seus tokens comprados.

Modelos suportados

O Nível Prioritário é suportado por:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (ambas as versões)
  • Claude Haiku 3.5

Verifique a página de visão geral dos modelos para mais detalhes sobre nossos modelos.

Como acessar o Nível Prioritário

Para começar a usar o Nível Prioritário:

  1. Entre em contato com vendas para completar o provisionamento
  2. (Opcional) Atualize suas solicitações de API para opcionalmente definir o parâmetro service_tier como auto
  3. Monitore seu uso através de cabeçalhos de resposta e do Console Anthropic