Gerir custos de forma eficaz
Aprenda como rastrear e otimizar o uso de tokens e custos ao usar o Claude Code.
O Claude Code consome tokens para cada interação. O custo médio é de 12 para 90% dos usuários.
Para uso em equipe, o Claude Code cobra pelo consumo de tokens da API. Em média, o Claude Code custa ~$100-200/desenvolvedor por mês com Sonnet 4, embora haja grande variação dependendo de quantas instâncias os usuários estão executando e se estão usando em automação.
Rastreie seus custos
- Use
/cost
para ver o uso da sessão atual - Usuários do Console Anthropic:
- Verifique o uso histórico no Console Anthropic (requer função de Admin ou Billing)
- Defina limites de gastos do workspace para o workspace do Claude Code (requer função de Admin)
- Usuários dos planos Pro e Max: O uso está incluído na sua assinatura
Gerenciando custos para equipes
Ao usar a API Anthropic, você pode limitar o gasto total do workspace do Claude Code. Para configurar, siga estas instruções. Administradores podem visualizar relatórios de custo e uso seguindo estas instruções.
No Bedrock e Vertex, o Claude Code não envia métricas da sua nuvem. Para obter métricas de custo, várias grandes empresas relataram usar o LiteLLM, que é uma ferramenta de código aberto que ajuda empresas a rastrear gastos por chave. Este projeto não é afiliado à Anthropic e não auditamos sua segurança.
Recomendações de limite de taxa
Ao configurar o Claude Code para equipes, considere estas recomendações de Tokens Por Minuto (TPM) e Requisições Por Minuto (RPM) por usuário baseadas no tamanho da sua organização:
Tamanho da equipe | TPM por usuário | RPM por usuário |
---|---|---|
1-5 usuários | 200k-300k | 5-7 |
5-20 usuários | 100k-150k | 2.5-3.5 |
20-50 usuários | 50k-75k | 1.25-1.75 |
50-100 usuários | 25k-35k | 0.62-0.87 |
100-500 usuários | 15k-20k | 0.37-0.47 |
500+ usuários | 10k-15k | 0.25-0.35 |
Por exemplo, se você tem 200 usuários, pode solicitar 20k TPM para cada usuário, ou 4 milhões de TPM total (200*20.000 = 4 milhões).
O TPM por usuário diminui conforme o tamanho da equipe cresce porque esperamos que menos usuários usem o Claude Code simultaneamente em organizações maiores. Estes limites de taxa se aplicam no nível da organização, não por usuário individual, o que significa que usuários individuais podem temporariamente consumir mais do que sua parte calculada quando outros não estão usando ativamente o serviço.
Se você antecipa cenários com uso simultâneo excepcionalmente alto (como sessões de treinamento ao vivo com grandes grupos), pode precisar de alocações de TPM mais altas por usuário.
Reduzir o uso de tokens
-
Conversas compactas:
-
O Claude usa auto-compactação por padrão quando o contexto excede 95% da capacidade
-
Alternar auto-compactação: Execute
/config
e navegue para “Auto-compact enabled” -
Use
/compact
manualmente quando o contexto ficar grande -
Adicione instruções personalizadas:
/compact Focus on code samples and API usage
-
Personalize a compactação adicionando ao CLAUDE.md:
-
-
Escreva consultas específicas: Evite solicitações vagas que acionam escaneamento desnecessário
-
Divida tarefas complexas: Divida tarefas grandes em interações focadas
-
Limpe o histórico entre tarefas: Use
/clear
para redefinir o contexto
Os custos podem variar significativamente baseados em:
- Tamanho da base de código sendo analisada
- Complexidade das consultas
- Número de arquivos sendo pesquisados ou modificados
- Duração do histórico da conversa
- Frequência de compactação de conversas
- Processos em segundo plano (geração de haiku, resumo de conversas)
Uso de tokens em segundo plano
O Claude Code usa tokens para algumas funcionalidades em segundo plano mesmo quando inativo:
- Geração de haiku: Pequenas mensagens criativas que aparecem enquanto você digita (aproximadamente 1 centavo por dia)
- Resumo de conversas: Trabalhos em segundo plano que resumem conversas anteriores para o recurso
claude --resume
- Processamento de comandos: Alguns comandos como
/cost
podem gerar requisições para verificar status
Estes processos em segundo plano consomem uma pequena quantidade de tokens (tipicamente abaixo de $0.04 por sessão) mesmo sem interação ativa.
Para implantações em equipe, recomendamos começar com um pequeno grupo piloto para estabelecer padrões de uso antes de uma implementação mais ampla.