Temos dois tipos de limites:

  1. Limites de gastos estabelecem um custo mensal máximo que uma organização pode incorrer pelo uso da API.
  2. Limites de taxa estabelecem o número máximo de requisições à API que uma organização pode fazer durante um período definido.

Aplicamos limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os workspaces da sua organização.

Sobre nossos limites

  • Os limites são projetados para prevenir o abuso da API, minimizando o impacto nos padrões comuns de uso do cliente.
  • Os limites são definidos por nível de uso, onde cada nível está associado a um conjunto diferente de limites de gastos e taxas.
  • Sua organização aumentará de nível automaticamente conforme você atinge certos limites durante o uso da API.
  • Os limites são definidos no nível da organização. Você pode ver os limites da sua organização na página de Limites no Console Anthropic.
  • Você pode atingir limites de taxa em intervalos mais curtos. Por exemplo, uma taxa de 60 requisições por minuto (RPM) pode ser aplicada como 1 requisição por segundo. Rajadas curtas de requisições em alto volume podem ultrapassar o limite de taxa e resultar em erros de limite de taxa.
  • Os limites descritos abaixo são nossos limites padrão. Se você estiver buscando limites personalizados mais altos, entre em contato com vendas através do Console Anthropic.
  • Usamos o algoritmo token bucket para fazer a limitação de taxa.
  • Todos os limites descritos aqui representam o uso máximo permitido, não mínimos garantidos. Estes limites são projetados para prevenir o uso excessivo e garantir uma distribuição justa de recursos entre os usuários.

Limites de gastos

Cada nível de uso tem um limite de quanto você pode gastar na API a cada mês do calendário. Uma vez que você atinge o limite de gastos do seu nível, até se qualificar para o próximo nível, você terá que esperar até o próximo mês para poder usar a API novamente.

Para se qualificar para o próximo nível, você deve atender a um requisito de depósito e um período de espera obrigatório. Níveis mais altos requerem períodos de espera mais longos. Observe que, para minimizar o risco de financiar excessivamente sua conta, você não pode depositar mais do que seu limite mensal de gastos.

Requisitos para avançar de nível

Nível de UsoCompra de CréditoEspera Após Primeira CompraUso Máximo por Mês
Nível 1$50 dias$100
Nível 2$407 dias$500
Nível 3$2007 dias$1.000
Nível 4$40014 dias$5.000
Faturamento MensalN/AN/AN/A

Limites de taxa atualizados

Nossos limites de taxa para a API de Mensagens são medidos em requisições por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo. Se você exceder qualquer um dos limites de taxa, receberá um erro 429. Clique no nível de limite de taxa para ver os limites relevantes.

Os limites de taxa são rastreados por modelo. Portanto, modelos dentro do mesmo nível não compartilham um limite de taxa.

ModeloMáximo de requisições por minuto (RPM)Máximo de tokens de entrada por minuto (ITPM)Máximo de tokens de saída por minuto (OTPM)
Claude 3.5 Sonnet
2024-10-22
5040.0008.000
Claude 3.5 Sonnet
2024-06-20
5040.0008.000
Claude 3.5 Haiku5050.00010.000
Claude 3 Opus5020.0004.000
Claude 3 Sonnet5040.0008.000
Claude 3 Haiku5050.00010.000

Os limites de OTPM são estimados com base em max_tokens no início de cada requisição, e a estimativa é ajustada no final da requisição para refletir o número real de tokens de saída utilizados. Se você estiver atingindo os limites de OTPM mais cedo do que o esperado, tente reduzir max_tokens para corresponder ao tamanho de suas conclusões.

API de Lotes de Mensagens

A API de Lotes de Mensagens tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Isso inclui um limite de requisições por minuto (RPM) para todos os endpoints da API e um limite no número de requisições em lote que podem estar na fila de processamento ao mesmo tempo. Uma “requisição em lote” aqui se refere a parte de um Lote de Mensagens. Você pode criar um Lote de Mensagens contendo milhares de requisições em lote, cada uma das quais conta para este limite. Uma requisição em lote é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.

Máximo de requisições por minuto (RPM)Máximo de requisições em lote na fila de processamento
50100.000

Definindo limites mais baixos para Workspaces

Para proteger os Workspaces em sua Organização de possível uso excessivo, você pode definir limites personalizados de gastos e taxa por Workspace.

Exemplo: Se o limite da sua Organização é de 48.000 tokens por minuto (40.000 tokens de entrada e 8.000 tokens de saída), você pode limitar um Workspace a 30.000 tokens totais por minuto. Isso protege outros Workspaces de possível uso excessivo e garante uma distribuição mais equitativa de recursos em sua Organização. Os tokens por minuto não utilizados restantes (ou mais, se aquele Workspace não usar o limite) ficam então disponíveis para outros Workspaces usarem.

Nota:

  • Você não pode definir limites no Workspace padrão.
  • Se não definidos, os limites do Workspace correspondem ao limite da Organização.
  • Os limites em toda a Organização sempre se aplicam, mesmo se os limites do Workspace somarem mais.
  • O suporte para limites de tokens de entrada e saída será adicionado aos Workspaces no futuro.

Cabeçalhos de resposta

A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, uso atual e quando o limite será redefinido.

Os seguintes cabeçalhos são retornados:

CabeçalhoDescrição
anthropic-ratelimit-requests-limitO número máximo de requisições permitidas dentro de qualquer período de limite de taxa.
anthropic-ratelimit-requests-remainingO número de requisições restantes antes de ser limitado por taxa.
anthropic-ratelimit-requests-resetO momento em que o limite de taxa de requisições será redefinido, fornecido no formato RFC 3339.
anthropic-ratelimit-tokens-limitO número máximo de tokens permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-tokens-remainingO número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
anthropic-ratelimit-tokens-resetO momento em que o limite de taxa de tokens será redefinido, fornecido no formato RFC 3339.
anthropic-ratelimit-input-tokens-limitO número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-input-tokens-remainingO número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
anthropic-ratelimit-input-tokens-resetO momento em que o limite de taxa de tokens de entrada será redefinido, fornecido no formato RFC 3339.
anthropic-ratelimit-output-tokens-limitO número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa.
anthropic-ratelimit-output-tokens-remainingO número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
anthropic-ratelimit-output-tokens-resetO momento em que o limite de taxa de tokens de saída será redefinido, fornecido no formato RFC 3339.
retry-afterO número de segundos até que você possa tentar a requisição novamente.

Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de tokens por minuto do Workspace, os cabeçalhos conterão os valores do limite de taxa de tokens por minuto do Workspace. Se os limites do Workspace não se aplicarem, os cabeçalhos retornarão o total de tokens restantes, onde o total é a soma dos tokens de entrada e saída. Esta abordagem garante que você tenha visibilidade da restrição mais relevante em seu uso atual da API.

Limites de taxa legados

Nossos limites de taxa eram anteriormente medidos em requisições por minuto, tokens por minuto e tokens por dia para cada classe de modelo. Se você exceder qualquer um dos limites de taxa, receberá um erro 429. Clique no nível de limite de taxa para ver os limites relevantes.

Os limites de taxa são rastreados por modelo, portanto modelos dentro do mesmo nível não compartilham um limite de taxa.

ModeloMáximo de requisições por minuto (RPM)Máximo de tokens por minuto (TPM)Máximo de tokens por dia (TPD)
Claude 3.5 Sonnet
2024-10-22
5040.0001.000.000
Claude 3.5 Sonnet
2024-06-20
5040.0001.000.000
Claude 3.5 Haiku5050.0005.000.000
Claude 3 Opus5020.0001.000.000
Claude 3 Sonnet5040.0001.000.000
Claude 3 Haiku5050.0005.000.000

Was this page helpful?