Oferecemos três níveis de serviço:

  • Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
  • Padrão: Melhor para tráfego intermitente, ou quando você está experimentando uma nova ideia
  • Lote: Melhor para fluxos de trabalho assíncronos que podem esperar ou se beneficiar de estar fora da sua capacidade normal

Nível Padrão

O nível padrão é o nível de serviço padrão para todas as solicitações de API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.

Nível Prioritário

As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Esta priorização ajuda a minimizar erros de “servidor sobrecarregado”, mesmo durante horários de pico.

Para mais informações, consulte Começar com o Nível Prioritário

Como as solicitações recebem níveis atribuídos

Ao lidar com uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:

  • Sua organização tem capacidade suficiente de tokens de entrada por minuto no nível prioritário
  • Sua organização tem capacidade suficiente de tokens de saída por minuto no nível prioritário

A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma:

Tokens de Entrada

  • Leituras de cache como 0,1 tokens por token lido do cache
  • Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
  • Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
  • Todos os outros tokens de entrada são 1 token por token

Tokens de Saída

  • 1 token por token

Caso contrário, as solicitações prosseguem no nível padrão.

Solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares. Se atender à solicitação excederia os limites de taxa, a solicitação é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier:

message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)

O parâmetro service_tier aceita os seguintes valores:

  • "auto" (padrão) - Usa a capacidade do Nível Prioritário se disponível, voltando para sua outra capacidade se não
  • "standard_only" - Usa apenas capacidade do nível padrão, útil se você não quiser usar sua capacidade do Nível Prioritário

O objeto usage da resposta também inclui o nível de serviço atribuído à solicitação:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite determinar qual nível de serviço foi atribuído à solicitação.

Ao solicitar service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença destes cabeçalhos para detectar se sua solicitação era elegível para o Nível Prioritário, mesmo se estava acima do limite.

Começar com o Nível Prioritário

Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:

  • Maior disponibilidade: Meta de 99,5% de tempo de atividade com recursos computacionais priorizados
  • Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
  • Overflow flexível: Volta automaticamente para o nível padrão quando você excede sua capacidade comprometida

Comprometer-se com o Nível Prioritário envolverá decidir:

  • Um número de tokens de entrada por minuto
  • Um número de tokens de saída por minuto
  • Uma duração de compromisso (1, 3, 6 ou 12 meses)
  • Uma versão específica do modelo

A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade do Nível Prioritário para alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização dos seus tokens comprados.

Modelos suportados

O Nível Prioritário é suportado por:

  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (ambas as versões)
  • Claude Haiku 3.5

Consulte a página de visão geral dos modelos para mais detalhes sobre nossos modelos.

Como acessar o Nível Prioritário

Para começar a usar o Nível Prioritário:

  1. Entre em contato com vendas para completar o provisionamento
  2. (Opcional) Atualize suas solicitações de API para opcionalmente definir o parâmetro service_tier como auto
  3. Monitore seu uso através dos cabeçalhos de resposta e do Console Anthropic