Níveis de serviço
Diferentes níveis de serviço permitem equilibrar disponibilidade, desempenho e custos previsíveis com base nas necessidades da sua aplicação.
Oferecemos três níveis de serviço:
- Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
- Padrão: Melhor para tráfego em rajadas, ou para quando você está testando uma nova ideia
- Lote: Melhor para fluxos de trabalho assíncronos que podem esperar ou se beneficiar por estarem fora da sua capacidade normal
Nível Padrão
O nível padrão é o nível de serviço padrão para todas as solicitações de API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade com melhor esforço.
Nível Prioritário
As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Essa priorização nos permite fornecer uma garantia em relação à baixa frequência de erros de “servidor sobrecarregado”, mesmo durante horários de pico.
Para mais informações, consulte Comece com o Nível Prioritário
Como as solicitações recebem níveis
Ao processar uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:
- Sua organização tem capacidade suficiente de nível prioritário de tokens de entrada por minuto
- Sua organização tem capacidade suficiente de nível prioritário de tokens de saída por minuto
A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma:
Tokens de Entrada
- Leituras de cache como 0,1 tokens por token lido do cache
- Escritas em cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
- Escritas em cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
- Todos os outros tokens de entrada são 1 token por token
Tokens de Saída
- 1 token por token
Caso contrário, as solicitações prosseguem no nível padrão.
As solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares. Se o atendimento da solicitação exceder os limites de taxa, a solicitação será recusada.
Usando níveis de serviço
Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier
:
O parâmetro service_tier
aceita os seguintes valores:
"auto"
(padrão) - Usa a capacidade do Nível Prioritário se disponível, recorrendo à sua outra capacidade se não estiver"standard_only"
- Usa apenas a capacidade do nível padrão, útil se você não quiser usar sua capacidade de Nível Prioritário
O objeto usage
da resposta também inclui o nível de serviço atribuído à solicitação:
Isso permite que você determine qual nível de serviço foi atribuído à solicitação.
Ao solicitar service_tier="auto"
com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:
Comece com o Nível Prioritário
Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:
- Maior disponibilidade: SLA de 99,9% de tempo de atividade com recursos computacionais priorizados
- Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
- Estouro flexível: Retorna automaticamente ao nível padrão quando você excede sua capacidade comprometida
Comprometer-se com o Nível Prioritário envolverá decidir:
- Um número de tokens de entrada por minuto
- Um número de tokens de saída por minuto
- Uma duração de compromisso (1, 3, 6 ou 12 meses)
- Uma versão específica do modelo
A proporção de tokens de entrada para saída que você compra é importante. Dimensionar sua capacidade de Nível Prioritário para alinhar com seus padrões reais de tráfego ajuda a garantir que você utilize totalmente todos os tokens comprados.
Modelos suportados
O Nível Prioritário é suportado por:
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (ambas as versões)
- Claude Haiku 3.5
Confira a página de visão geral do modelo para mais detalhes sobre nossos modelos.
Como acessar o Nível Prioritário
Para começar a usar o Nível Prioritário:
- Entre em contato com vendas através do Console Anthropic para concluir o provisionamento
- (Opcional) Atualize suas solicitações de API para definir opcionalmente o parâmetro
service_tier
comoauto
- Monitore seu uso através dos cabeçalhos de resposta e do Console Anthropic