Temos dois tipos de limites:

  1. Limites de gastos estabelecem um custo mensal máximo que uma organização pode incorrer pelo uso da API.
  2. Limites de taxa estabelecem o número máximo de solicitações de API que uma organização pode fazer durante um período de tempo definido.

Aplicamos limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os workspaces da sua organização.

Esses limites se aplicam tanto ao uso do Tier Standard quanto do Priority Tier. Para mais informações sobre o Priority Tier, que oferece níveis de serviço aprimorados em troca de gastos comprometidos, consulte Tiers de Serviço.

Sobre nossos limites

  • Os limites são projetados para prevenir o abuso da API, minimizando o impacto nos padrões comuns de uso do cliente.
  • Os limites são definidos por tier de uso, onde cada tier está associado a um conjunto diferente de limites de gastos e taxas.
  • Sua organização aumentará de tier automaticamente conforme você atinge certos limites ao usar a API. Os limites são definidos no nível da organização. Você pode ver os limites da sua organização na página de Limites no Console da Anthropic.
  • Você pode atingir limites de taxa em intervalos de tempo mais curtos. Por exemplo, uma taxa de 60 solicitações por minuto (RPM) pode ser aplicada como 1 solicitação por segundo. Rajadas curtas de solicitações em alto volume podem ultrapassar o limite de taxa e resultar em erros de limite de taxa.
  • Os limites descritos abaixo são nossos limites de tier padrão. Se você estiver buscando limites personalizados mais altos ou Priority Tier para níveis de serviço aprimorados, entre em contato com vendas através do Console da Anthropic.
  • Usamos o algoritmo de token bucket para fazer limitação de taxa. Isso significa que sua capacidade é continuamente reabastecida até seu limite máximo, em vez de ser redefinida em intervalos fixos.
  • Todos os limites descritos aqui representam o uso máximo permitido, não mínimos garantidos. Esses limites destinam-se a reduzir gastos excessivos não intencionais e garantir uma distribuição justa de recursos entre os usuários.

Limites de gastos

Cada tier de uso tem um limite de quanto você pode gastar na API a cada mês do calendário. Depois de atingir o limite de gastos do seu tier, até que você se qualifique para o próximo tier, você terá que esperar até o próximo mês para poder usar a API novamente.

Para se qualificar para o próximo tier, você deve atender a um requisito de depósito. Para minimizar o risco de financiar excessivamente sua conta, você não pode depositar mais do que seu limite mensal de gastos.

Requisitos para avançar de tier

Tier de UsoCompra de CréditoUso Máximo por Mês
Tier 1$5$100
Tier 2$40$500
Tier 3$200$1,000
Tier 4$400$5,000
Faturamento MensalN/AN/A

Limites de taxa

Nossos limites de taxa para a API de Mensagens são medidos em solicitações por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo. Se você exceder qualquer um dos limites de taxa, receberá um erro 429 descrevendo qual limite de taxa foi excedido, junto com um cabeçalho retry-after indicando quanto tempo esperar.

Os limites de taxa ITPM são estimados no início de cada solicitação, e a estimativa é ajustada durante a solicitação para refletir o número real de tokens de entrada usados. O ajuste final conta input_tokens e cache_creation_input_tokens para os limites de taxa ITPM, enquanto cache_read_input_tokens não são contados (embora ainda sejam cobrados). Em alguns casos, cache_read_input_tokens são contados para os limites de taxa ITPM.

Os limites de taxa OTPM são estimados com base em max_tokens no início de cada solicitação, e a estimativa é ajustada no final da solicitação para refletir o número real de tokens de saída usados. Se você estiver atingindo os limites de OTPM mais cedo do que o esperado, tente reduzir max_tokens para aproximar melhor o tamanho de suas conclusões.

Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente. Você pode verificar seus limites de taxa atuais e comportamento no Console da Anthropic.

ModeloMáximo de solicitações por minuto (RPM)Máximo de tokens de entrada por minuto (ITPM)Máximo de tokens de saída por minuto (OTPM)
Claude Opus 45020.0008.000
Claude Sonnet 45020.0008.000
Claude Sonnet 3.75020.0008.000
Claude Sonnet 3.5
2024-10-22
5040.000*8.000
Claude Sonnet 3.5
2024-06-20
5040.000*8.000
Claude Haiku 3.55050.000*10.000
Claude Opus 35020.000*4.000
Claude Sonnet 35040.000*8.000
Claude Haiku 35050.000*10.000

Limites marcados com asteriscos (*) contam cache_read_input_tokens para o uso de ITPM.

API de Lotes de Mensagens

A API de Lotes de Mensagens tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Estes incluem um limite de solicitações por minuto (RPM) para todos os endpoints da API e um limite no número de solicitações em lote que podem estar na fila de processamento ao mesmo tempo. Uma “solicitação em lote” aqui se refere a parte de um Lote de Mensagens. Você pode criar um Lote de Mensagens contendo milhares de solicitações em lote, cada uma das quais conta para este limite. Uma solicitação em lote é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.

Máximo de solicitações por minuto (RPM)Máximo de solicitações em lote na fila de processamentoMáximo de solicitações em lote por lote
50100.000100.000

Definindo limites mais baixos para Workspaces

Para proteger os Workspaces em sua Organização de possível uso excessivo, você pode definir limites personalizados de gastos e taxas por Workspace.

Exemplo: Se o limite da sua Organização é de 40.000 tokens de entrada por minuto e 8.000 tokens de saída por minuto, você pode limitar um Workspace a 30.000 tokens totais por minuto. Isso protege outros Workspaces de possível uso excessivo e garante uma distribuição mais equitativa de recursos em sua Organização. Os tokens restantes não utilizados por minuto (ou mais, se esse Workspace não usar o limite) ficam então disponíveis para outros Workspaces usarem.

Nota:

  • Você não pode definir limites no Workspace padrão.
  • Se não forem definidos, os limites do Workspace correspondem ao limite da Organização.
  • Os limites em toda a Organização sempre se aplicam, mesmo que os limites do Workspace somem mais.
  • O suporte para limites de tokens de entrada e saída será adicionado aos Workspaces no futuro.

Cabeçalhos de resposta

A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, o uso atual e quando o limite será redefinido.

Os seguintes cabeçalhos são retornados:

CabeçalhoDescrição
retry-afterO número de segundos para esperar até que você possa tentar novamente a solicitação. Tentativas anteriores falharão.
anthropic-ratelimit-requests-limitO número máximo de solicitações permitidas dentro de qualquer período de limite de taxa.
anthropic-ratelimit-requests-remainingO número de solicitações restantes antes de ser limitado pela taxa.
anthropic-ratelimit-requests-resetO momento em que o limite de taxa de solicitações será totalmente reabastecido, fornecido no formato RFC 3339.
anthropic-ratelimit-tokens-limitO número máximo de tokens permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-tokens-remainingO número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado pela taxa.
anthropic-ratelimit-tokens-resetO momento em que o limite de taxa de tokens será totalmente reabastecido, fornecido no formato RFC 3339.
anthropic-ratelimit-input-tokens-limitO número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-input-tokens-remainingO número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado pela taxa.
anthropic-ratelimit-input-tokens-resetO momento em que o limite de taxa de tokens de entrada será totalmente reabastecido, fornecido no formato RFC 3339.
anthropic-ratelimit-output-tokens-limitO número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-output-tokens-remainingO número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado pela taxa.
anthropic-ratelimit-output-tokens-resetO momento em que o limite de taxa de tokens de saída será totalmente reabastecido, fornecido no formato RFC 3339.
anthropic-priority-input-tokens-limitO número máximo de tokens de entrada do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier)
anthropic-priority-input-tokens-remainingO número de tokens de entrada do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado pela taxa. (Somente Priority Tier)
anthropic-priority-input-tokens-resetO momento em que o limite de taxa de tokens de entrada do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier)
anthropic-priority-output-tokens-limitO número máximo de tokens de saída do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier)
anthropic-priority-output-tokens-remainingO número de tokens de saída do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado pela taxa. (Somente Priority Tier)
anthropic-priority-output-tokens-resetO momento em que o limite de taxa de tokens de saída do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier)

Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de tokens por minuto do Workspace, os cabeçalhos conterão os valores do limite de taxa de tokens por minuto do Workspace. Se os limites do Workspace não se aplicarem, os cabeçalhos retornarão o total de tokens restantes, onde o total é a soma de tokens de entrada e saída. Essa abordagem garante que você tenha visibilidade da restrição mais relevante em seu uso atual da API.