Claude Code consome tokens para cada interação. O custo médio é 6pordesenvolvedorpordia,comcustosdiaˊriospermanecendoabaixode6 por desenvolvedor por dia, com custos diários permanecendo abaixo de 12 para 90% dos usuários.

Para uso em equipe, Claude Code cobra pelo consumo de tokens da API. Em média, Claude Code custa ~$100-200/desenvolvedor por mês com Sonnet 4, embora haja grande variação dependendo de quantas instâncias os usuários estão executando e se estão usando em automação.

Rastreie seus custos

  • Use /cost para ver o uso da sessão atual
  • Usuários do Console Anthropic:
  • Usuários dos planos Pro e Max: O uso está incluído na sua assinatura

Gerenciando custos para equipes

Ao usar a API Anthropic, você pode limitar o gasto total do workspace Claude Code. Para configurar, siga estas instruções. Administradores podem visualizar relatórios de custo e uso seguindo estas instruções.

No Bedrock e Vertex, Claude Code não envia métricas da sua nuvem. Para obter métricas de custo, várias grandes empresas relataram usar LiteLLM, que é uma ferramenta de código aberto que ajuda empresas a rastrear gastos por chave. Este projeto não é afiliado à Anthropic e não auditamos sua segurança.

Recomendações de limite de taxa

Ao configurar Claude Code para equipes, considere estas recomendações de Tokens Por Minuto (TPM) por usuário baseadas no tamanho da sua organização:

Tamanho da equipeTPM por usuário
1-5 usuários200k-300k
5-20 usuários100k-150k
20-50 usuários50k-75k
50-100 usuários25k-35k
100-500 usuários15k-20k
500+ usuários10k-15k

Por exemplo, se você tem 200 usuários, pode solicitar 20k TPM para cada usuário, ou 4 milhões de TPM total (200*20.000 = 4 milhões).

O TPM por usuário diminui conforme o tamanho da equipe cresce porque esperamos que menos usuários usem Claude Code simultaneamente em organizações maiores. Estes limites de taxa se aplicam no nível da organização, não por usuário individual, o que significa que usuários individuais podem temporariamente consumir mais que sua parcela calculada quando outros não estão usando ativamente o serviço.

Se você antecipa cenários com uso simultâneo excepcionalmente alto (como sessões de treinamento ao vivo com grupos grandes), pode precisar de alocações de TPM mais altas por usuário.

Reduzir uso de tokens

  • Conversas compactas:

    • Claude usa auto-compactação por padrão quando o contexto excede 95% da capacidade

    • Alternar auto-compactação: Execute /config e navegue para “Auto-compact enabled”

    • Use /compact manualmente quando o contexto ficar grande

    • Adicione instruções personalizadas: /compact Focus on code samples and API usage

    • Personalize a compactação adicionando ao CLAUDE.md:

      # Instruções de resumo
      
      Quando você estiver usando compact, por favor foque na saída de teste e mudanças de código
      
  • Escreva consultas específicas: Evite solicitações vagas que acionam varredura desnecessária

  • Divida tarefas complexas: Divida tarefas grandes em interações focadas

  • Limpe o histórico entre tarefas: Use /clear para redefinir o contexto

Os custos podem variar significativamente baseados em:

  • Tamanho da base de código sendo analisada
  • Complexidade das consultas
  • Número de arquivos sendo pesquisados ou modificados
  • Duração do histórico da conversa
  • Frequência de compactação de conversas
  • Processos em segundo plano (geração de haiku, sumarização de conversa)

Uso de tokens em segundo plano

Claude Code usa tokens para algumas funcionalidades em segundo plano mesmo quando inativo:

  • Geração de haiku: Pequenas mensagens criativas que aparecem enquanto você digita (aproximadamente 1 centavo por dia)
  • Sumarização de conversa: Trabalhos em segundo plano que resumem conversas anteriores para o recurso claude --resume
  • Processamento de comandos: Alguns comandos como /cost podem gerar solicitações para verificar status

Estes processos em segundo plano consomem uma pequena quantidade de tokens (tipicamente abaixo de $0,04 por sessão) mesmo sem interação ativa.

Para implantações em equipe, recomendamos começar com um pequeno grupo piloto para estabelecer padrões de uso antes de uma implementação mais ampla.