O Claude Code consome tokens para cada interação. O custo médio é de 6pordesenvolvedorpordia,comcustosdiaˊriospermanecendoabaixode6 por desenvolvedor por dia, com custos diários permanecendo abaixo de 12 para 90% dos usuários.

Para uso em equipe, o Claude Code cobra pelo consumo de tokens da API. Em média, o Claude Code custa ~$100-200/desenvolvedor por mês com Sonnet 4, embora haja grande variação dependendo de quantas instâncias os usuários estão executando e se estão usando em automação.

Rastreie seus custos

  • Use /cost para ver o uso da sessão atual
  • Usuários do Console Anthropic:
  • Usuários dos planos Pro e Max: O uso está incluído na sua assinatura

Gerenciando custos para equipes

Ao usar a API Anthropic, você pode limitar o gasto total do workspace do Claude Code. Para configurar, siga estas instruções. Administradores podem visualizar relatórios de custo e uso seguindo estas instruções.

No Bedrock e Vertex, o Claude Code não envia métricas da sua nuvem. Para obter métricas de custo, várias grandes empresas relataram usar o LiteLLM, que é uma ferramenta de código aberto que ajuda empresas a rastrear gastos por chave. Este projeto não é afiliado à Anthropic e não auditamos sua segurança.

Recomendações de limite de taxa

Ao configurar o Claude Code para equipes, considere estas recomendações de Tokens Por Minuto (TPM) e Requisições Por Minuto (RPM) por usuário baseadas no tamanho da sua organização:

Tamanho da equipeTPM por usuárioRPM por usuário
1-5 usuários200k-300k5-7
5-20 usuários100k-150k2.5-3.5
20-50 usuários50k-75k1.25-1.75
50-100 usuários25k-35k0.62-0.87
100-500 usuários15k-20k0.37-0.47
500+ usuários10k-15k0.25-0.35

Por exemplo, se você tem 200 usuários, pode solicitar 20k TPM para cada usuário, ou 4 milhões de TPM total (200*20.000 = 4 milhões).

O TPM por usuário diminui conforme o tamanho da equipe cresce porque esperamos que menos usuários usem o Claude Code simultaneamente em organizações maiores. Estes limites de taxa se aplicam no nível da organização, não por usuário individual, o que significa que usuários individuais podem temporariamente consumir mais do que sua parte calculada quando outros não estão usando ativamente o serviço.

Se você antecipa cenários com uso simultâneo excepcionalmente alto (como sessões de treinamento ao vivo com grandes grupos), pode precisar de alocações de TPM mais altas por usuário.

Reduzir o uso de tokens

  • Conversas compactas:

    • O Claude usa auto-compactação por padrão quando o contexto excede 95% da capacidade

    • Alternar auto-compactação: Execute /config e navegue para “Auto-compact enabled”

    • Use /compact manualmente quando o contexto ficar grande

    • Adicione instruções personalizadas: /compact Focus on code samples and API usage

    • Personalize a compactação adicionando ao CLAUDE.md:

      # Summary instructions
      
      When you are using compact, please focus on test output and code changes
      
  • Escreva consultas específicas: Evite solicitações vagas que acionam escaneamento desnecessário

  • Divida tarefas complexas: Divida tarefas grandes em interações focadas

  • Limpe o histórico entre tarefas: Use /clear para redefinir o contexto

Os custos podem variar significativamente baseados em:

  • Tamanho da base de código sendo analisada
  • Complexidade das consultas
  • Número de arquivos sendo pesquisados ou modificados
  • Duração do histórico da conversa
  • Frequência de compactação de conversas
  • Processos em segundo plano (geração de haiku, resumo de conversas)

Uso de tokens em segundo plano

O Claude Code usa tokens para algumas funcionalidades em segundo plano mesmo quando inativo:

  • Geração de haiku: Pequenas mensagens criativas que aparecem enquanto você digita (aproximadamente 1 centavo por dia)
  • Resumo de conversas: Trabalhos em segundo plano que resumem conversas anteriores para o recurso claude --resume
  • Processamento de comandos: Alguns comandos como /cost podem gerar requisições para verificar status

Estes processos em segundo plano consomem uma pequena quantidade de tokens (tipicamente abaixo de $0.04 por sessão) mesmo sem interação ativa.

Para implantações em equipe, recomendamos começar com um pequeno grupo piloto para estabelecer padrões de uso antes de uma implementação mais ampla.