Oferecemos três níveis de serviço:

  • Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
  • Padrão: Melhor para tráfego em rajadas, ou para quando você está testando uma nova ideia
  • Lote: Melhor para fluxos de trabalho assíncronos que podem esperar ou se beneficiar por estarem fora da sua capacidade normal

Nível Padrão

O nível padrão é o nível de serviço padrão para todas as solicitações de API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade com melhor esforço.

Nível Prioritário

As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Essa priorização nos permite fornecer uma garantia em relação à baixa frequência de erros de “servidor sobrecarregado”, mesmo durante horários de pico.

Para mais informações, consulte Comece com o Nível Prioritário

Como as solicitações recebem níveis

Ao processar uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:

  • Sua organização tem capacidade suficiente de nível prioritário de tokens de entrada por minuto
  • Sua organização tem capacidade suficiente de nível prioritário de tokens de saída por minuto

A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma:

Tokens de Entrada

  • Leituras de cache como 0,1 tokens por token lido do cache
  • Escritas em cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
  • Escritas em cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
  • Todos os outros tokens de entrada são 1 token por token

Tokens de Saída

  • 1 token por token

Caso contrário, as solicitações prosseguem no nível padrão.

As solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares. Se o atendimento da solicitação exceder os limites de taxa, a solicitação será recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Olá, Claude!"}],
    service_tier="auto"  # Usa automaticamente o Nível Prioritário quando disponível, com fallback para o padrão
)

O parâmetro service_tier aceita os seguintes valores:

  • "auto" (padrão) - Usa a capacidade do Nível Prioritário se disponível, recorrendo à sua outra capacidade se não estiver
  • "standard_only" - Usa apenas a capacidade do nível padrão, útil se você não quiser usar sua capacidade de Nível Prioritário

O objeto usage da resposta também inclui o nível de serviço atribuído à solicitação:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite que você determine qual nível de serviço foi atribuído à solicitação.

Ao solicitar service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Comece com o Nível Prioritário

Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:

  • Maior disponibilidade: SLA de 99,9% de tempo de atividade com recursos computacionais priorizados
  • Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
  • Estouro flexível: Retorna automaticamente ao nível padrão quando você excede sua capacidade comprometida

Comprometer-se com o Nível Prioritário envolverá decidir:

  • Um número de tokens de entrada por minuto
  • Um número de tokens de saída por minuto
  • Uma duração de compromisso (1, 3, 6 ou 12 meses)
  • Uma versão específica do modelo

A proporção de tokens de entrada para saída que você compra é importante. Dimensionar sua capacidade de Nível Prioritário para alinhar com seus padrões reais de tráfego ajuda a garantir que você utilize totalmente todos os tokens comprados.

Modelos suportados

O Nível Prioritário é suportado por:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (ambas as versões)
  • Claude Haiku 3.5

Confira a página de visão geral do modelo para mais detalhes sobre nossos modelos.

Como acessar o Nível Prioritário

Para começar a usar o Nível Prioritário:

  1. Entre em contato com vendas através do Console Anthropic para concluir o provisionamento
  2. (Opcional) Atualize suas solicitações de API para definir opcionalmente o parâmetro service_tier como auto
  3. Monitore seu uso através dos cabeçalhos de resposta e do Console Anthropic