Limites de taxa

Temos dois tipos de limites:

Limites de gastos definem um custo mensal máximo que uma organização pode incorrer para uso da API.
Limites de taxa definem o número máximo de solicitações de API que uma organização pode fazer durante um período de tempo definido.

Aplicamos limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os espaços de trabalho da sua organização. Esses limites se aplicam tanto ao uso do Nível Padrão quanto do Nível Prioritário. Para mais informações sobre o Nível Prioritário, que oferece níveis de serviço aprimorados em troca de gastos comprometidos, consulte Níveis de Serviço.

Sobre nossos limites

Os limites são projetados para prevenir abuso da API, minimizando o impacto nos padrões comuns de uso do cliente.
Os limites são definidos por nível de uso, onde cada nível está associado a um conjunto diferente de limites de gastos e taxa.
Sua organização aumentará de nível automaticamente conforme você atinge certos limites enquanto usa a API. Os limites são definidos no nível da organização. Você pode ver os limites da sua organização na página de Limites no Console Anthropic.
Você pode atingir limites de taxa em intervalos de tempo mais curtos. Por exemplo, uma taxa de 60 solicitações por minuto (RPM) pode ser aplicada como 1 solicitação por segundo. Rajadas curtas de solicitações em alto volume podem ultrapassar o limite de taxa e resultar em erros de limite de taxa.
Os limites descritos abaixo são nossos limites de nível padrão. Se você está buscando limites mais altos e personalizados ou Nível Prioritário para níveis de serviço aprimorados, entre em contato com vendas através do Console Anthropic.
Usamos o algoritmo de balde de tokens para fazer limitação de taxa. Isso significa que sua capacidade é continuamente reabastecida até seu limite máximo, em vez de ser redefinida em intervalos fixos.
Todos os limites descritos aqui representam uso máximo permitido, não mínimos garantidos. Esses limites são destinados a reduzir gastos excessivos não intencionais e garantir distribuição justa de recursos entre os usuários.

Limites de gastos

Cada nível de uso tem um limite sobre quanto você pode gastar na API a cada mês calendário. Uma vez que você atinge o limite de gastos do seu nível, até que você se qualifique para o próximo nível, você terá que esperar até o próximo mês para poder usar a API novamente. Para se qualificar para o próximo nível, você deve atender a um requisito de depósito. Para minimizar o risco de financiar excessivamente sua conta, você não pode depositar mais do que seu limite de gastos mensais.

Requisitos para avançar de nível

Nível de Uso	Compra de Crédito	Uso Máximo por Mês
Nível 1	$5	$100
Nível 2	$40	$500
Nível 3	$200	$1,000
Nível 4	$400	$5,000
Faturamento Mensal	N/A	N/A

Nossos limites de taxa para a API Messages são medidos em solicitações por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo. Se você exceder qualquer um dos limites de taxa, receberá um erro 429 descrevendo qual limite de taxa foi excedido, junto com um cabeçalho retry-after indicando quanto tempo esperar.

Você também pode encontrar erros 429 devido a limites de aceleração na API se sua organização tiver um aumento acentuado no uso. Para evitar atingir limites de aceleração, aumente seu tráfego gradualmente e mantenha padrões de uso consistentes.

Os limites de taxa ITPM são estimados no início de cada solicitação, e a estimativa é ajustada durante a solicitação para refletir o número real de tokens de entrada usados. O ajuste final conta input_tokens e cache_creation_input_tokens para os limites de taxa ITPM.

Para alguns modelos, cache_read_input_tokens também contam para os limites de taxa ITPM. O ITPM máximo para esses modelos é marcado com † nas tabelas de limite de taxa abaixo.Para todos os outros modelos, cache_read_input_tokens não contam para os limites de taxa ITPM (embora ainda sejam cobrados).

Os limites de taxa OTPM são estimados com base em max_tokens no início de cada solicitação, e a estimativa é ajustada no final da solicitação para refletir o número real de tokens de saída usados. Se você está atingindo limites OTPM mais cedo do que esperado, tente reduzir max_tokens para aproximar melhor o tamanho de suas conclusões. Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente. Você pode verificar seus limites de taxa atuais e comportamento no Console Anthropic.

Para solicitações de contexto longo (>200K tokens) ao usar o cabeçalho beta context-1m-2025-08-07 com Claude Sonnet 4, limites de taxa separados se aplicam. Veja Limites de taxa de contexto longo abaixo.

Modelo	Máximo de solicitações por minuto (RPM)	Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de saída por minuto (OTPM)
Claude Opus 4.x^*	50	30,000	8,000
Claude Sonnet 4	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22 (descontinuado)	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20 (descontinuado)	50	40,000^†	8,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Opus 3 (descontinuado)	50	20,000^†	4,000
Claude Haiku 3	50	50,000^†	10,000

^{* - O limite de taxa do Opus 4.x é um limite total que se aplica ao tráfego combinado entre Opus 4.0 e Opus 4.1.} ^{† - O limite conta cache_read_input_tokens para o uso de ITPM.}

API Message Batches

A API Message Batches tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Estes incluem um limite de solicitações por minuto (RPM) para todos os endpoints da API e um limite no número de solicitações de lote que podem estar na fila de processamento ao mesmo tempo. Uma “solicitação de lote” aqui se refere a parte de um Message Batch. Você pode criar um Message Batch contendo milhares de solicitações de lote, cada uma das quais conta para este limite. Uma solicitação de lote é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.

Máximo de solicitações por minuto (RPM)	Máximo de solicitações de lote na fila de processamento	Máximo de solicitações de lote por lote
50	100,000	100,000

Limites de taxa de contexto longo

Ao usar Claude Sonnet 4 com a janela de contexto de 1M tokens habilitada, os seguintes limites de taxa dedicados se aplicam a solicitações que excedem 200K tokens.

A janela de contexto de 1M tokens está atualmente em beta para organizações no nível de uso 4 e organizações com limites de taxa personalizados. A janela de contexto de 1M tokens está disponível apenas para Claude Sonnet 4.

Máximo de tokens de entrada por minuto (ITPM)	Máximo de tokens de saída por minuto (OTPM)
1,000,000	200,000

Para obter o máximo da janela de contexto de 1M tokens com limites de taxa, use cache de prompt.

Monitorando seus limites de taxa no Console

Você pode monitorar o uso dos seus limites de taxa na página Uso do Console Anthropic. Além de fornecer gráficos de tokens e solicitações, a página de Uso fornece dois gráficos separados de limite de taxa. Use esses gráficos para ver que margem você tem para crescer, quando você pode estar atingindo o uso de pico, entender melhor que limites de taxa solicitar, ou como você pode melhorar suas taxas de cache. Os gráficos visualizam várias métricas para um determinado limite de taxa (por exemplo, por modelo):

O gráfico Limite de Taxa - Tokens de Entrada inclui:
- Máximo de tokens de entrada não armazenados em cache por minuto por hora
- Seu limite atual de taxa de tokens de entrada por minuto
- A taxa de cache para seus tokens de entrada (ou seja, a porcentagem de tokens de entrada lidos do cache)
O gráfico Limite de Taxa - Tokens de Saída inclui:
- Máximo de tokens de saída por minuto por hora
- Seu limite atual de taxa de tokens de saída por minuto

Definindo limites mais baixos para Espaços de Trabalho

Para proteger os Espaços de Trabalho em sua Organização do uso excessivo potencial, você pode definir limites personalizados de gastos e taxa por Espaço de Trabalho. Exemplo: Se o limite da sua Organização é 40,000 tokens de entrada por minuto e 8,000 tokens de saída por minuto, você pode limitar um Espaço de Trabalho a 30,000 tokens totais por minuto. Isso protege outros Espaços de Trabalho do uso excessivo potencial e garante uma distribuição mais equitativa de recursos em sua Organização. Os tokens restantes não utilizados por minuto (ou mais, se esse Espaço de Trabalho não usar o limite) ficam então disponíveis para outros Espaços de Trabalho usarem. Nota:

Você não pode definir limites no Espaço de Trabalho padrão.
Se não definido, os limites do Espaço de Trabalho correspondem ao limite da Organização.
Os limites da Organização sempre se aplicam, mesmo se os limites do Espaço de Trabalho somarem mais.
O suporte para limites de tokens de entrada e saída será adicionado aos Espaços de Trabalho no futuro.

Cabeçalhos de resposta

A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, uso atual e quando o limite será redefinido. Os seguintes cabeçalhos são retornados:

Cabeçalho	Descrição
`retry-after`	O número de segundos para esperar até que você possa tentar novamente a solicitação. Tentativas anteriores falharão.
`anthropic-ratelimit-requests-limit`	O número máximo de solicitações permitidas dentro de qualquer período de limite de taxa.
`anthropic-ratelimit-requests-remaining`	O número de solicitações restantes antes de ser limitado por taxa.
`anthropic-ratelimit-requests-reset`	O tempo quando o limite de taxa de solicitação será totalmente reabastecido, fornecido no formato RFC 3339.
`anthropic-ratelimit-tokens-limit`	O número máximo de tokens permitidos dentro de qualquer período de limite de taxa.
`anthropic-ratelimit-tokens-remaining`	O número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-tokens-reset`	O tempo quando o limite de taxa de token será totalmente reabastecido, fornecido no formato RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	O número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa.
`anthropic-ratelimit-input-tokens-remaining`	O número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-input-tokens-reset`	O tempo quando o limite de taxa de token de entrada será totalmente reabastecido, fornecido no formato RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	O número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa.
`anthropic-ratelimit-output-tokens-remaining`	O número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa.
`anthropic-ratelimit-output-tokens-reset`	O tempo quando o limite de taxa de token de saída será totalmente reabastecido, fornecido no formato RFC 3339.
`anthropic-priority-input-tokens-limit`	O número máximo de tokens de entrada do Nível Prioritário permitidos dentro de qualquer período de limite de taxa. (Apenas Nível Prioritário)
`anthropic-priority-input-tokens-remaining`	O número de tokens de entrada do Nível Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Nível Prioritário)
`anthropic-priority-input-tokens-reset`	O tempo quando o limite de taxa de token de entrada do Nível Prioritário será totalmente reabastecido, fornecido no formato RFC 3339. (Apenas Nível Prioritário)
`anthropic-priority-output-tokens-limit`	O número máximo de tokens de saída do Nível Prioritário permitidos dentro de qualquer período de limite de taxa. (Apenas Nível Prioritário)
`anthropic-priority-output-tokens-remaining`	O número de tokens de saída do Nível Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Nível Prioritário)
`anthropic-priority-output-tokens-reset`	O tempo quando o limite de taxa de token de saída do Nível Prioritário será totalmente reabastecido, fornecido no formato RFC 3339. (Apenas Nível Prioritário)

Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de token por minuto do Espaço de Trabalho, os cabeçalhos conterão os valores do limite de taxa de token por minuto do Espaço de Trabalho. Se os limites do Espaço de Trabalho não se aplicam, os cabeçalhos retornarão os tokens totais restantes, onde total é a soma dos tokens de entrada e saída. Esta abordagem garante que você tenha visibilidade da restrição mais relevante no seu uso atual da API.

Usando as APIs

Referência da API

SDKs

Exemplos

APIs de terceiros

Usando a API Admin

Suporte e configuração

Limites de taxa

Sobre nossos limites

Limites de gastos

Requisitos para avançar de nível

Limites de taxa

API Message Batches

Limites de taxa de contexto longo

Monitorando seus limites de taxa no Console

Definindo limites mais baixos para Espaços de Trabalho

Cabeçalhos de resposta

Usando as APIs

Referência da API

SDKs

Exemplos

APIs de terceiros

Usando a API Admin

Suporte e configuração

​Sobre nossos limites

​Limites de gastos

​Requisitos para avançar de nível

​Limites de taxa

​API Message Batches

​Limites de taxa de contexto longo

​Monitorando seus limites de taxa no Console

​Definindo limites mais baixos para Espaços de Trabalho

​Cabeçalhos de resposta

Sobre nossos limites

Limites de gastos

Requisitos para avançar de nível

Limites de taxa

API Message Batches

Limites de taxa de contexto longo

Monitorando seus limites de taxa no Console

Definindo limites mais baixos para Espaços de Trabalho

Cabeçalhos de resposta