Claude Code consume tokens por cada interacción. El costo promedio es de 6pordesarrolladorpordıˊa,concostosdiariosquesemantienenpordebajode6 por desarrollador por día, con costos diarios que se mantienen por debajo de 12 para el 90% de los usuarios.

Para uso en equipo, Claude Code cobra por consumo de tokens de API. En promedio, Claude Code cuesta ~$100-200/desarrollador por mes con Sonnet 4, aunque hay una gran variación dependiendo de cuántas instancias estén ejecutando los usuarios y si lo están usando en automatización.

Rastrea tus costos

  • Usa /cost para ver el uso de la sesión actual
  • Usuarios de Anthropic Console:
  • Usuarios de planes Pro y Max: El uso está incluido en tu suscripción

Gestión de costos para equipos

Al usar la API de Anthropic, puedes limitar el gasto total del workspace de Claude Code. Para configurar, sigue estas instrucciones. Los administradores pueden ver reportes de costos y uso siguiendo estas instrucciones.

En Bedrock y Vertex, Claude Code no envía métricas desde tu nube. Para obtener métricas de costos, varias empresas grandes reportaron usar LiteLLM, que es una herramienta de código abierto que ayuda a las empresas a rastrear gastos por clave. Este proyecto no está afiliado con Anthropic y no hemos auditado su seguridad.

Recomendaciones de límite de velocidad

Al configurar Claude Code para equipos, considera estas recomendaciones de Tokens Por Minuto (TPM) por usuario basadas en el tamaño de tu organización:

Tamaño del equipoTPM por usuario
1-5 usuarios200k-300k
5-20 usuarios100k-150k
20-50 usuarios50k-75k
50-100 usuarios25k-35k
100-500 usuarios15k-20k
500+ usuarios10k-15k

Por ejemplo, si tienes 200 usuarios, podrías solicitar 20k TPM para cada usuario, o 4 millones de TPM total (200*20,000 = 4 millones).

El TPM por usuario disminuye a medida que crece el tamaño del equipo porque esperamos que menos usuarios usen Claude Code concurrentemente en organizaciones más grandes. Estos límites de velocidad se aplican a nivel de organización, no por usuario individual, lo que significa que los usuarios individuales pueden consumir temporalmente más que su parte calculada cuando otros no están usando activamente el servicio.

Si anticipas escenarios con uso concurrente inusualmente alto (como sesiones de entrenamiento en vivo con grupos grandes), podrías necesitar asignaciones de TPM más altas por usuario.

Reduce el uso de tokens

  • Conversaciones compactas:

    • Claude usa auto-compactar por defecto cuando el contexto excede el 95% de capacidad

    • Alternar auto-compactar: Ejecuta /config y navega a “Auto-compact enabled”

    • Usa /compact manualmente cuando el contexto se vuelva grande

    • Agrega instrucciones personalizadas: /compact Focus on code samples and API usage

    • Personaliza la compactación agregando a CLAUDE.md:

      # Instrucciones de resumen
      
      Cuando estés usando compact, por favor enfócate en la salida de pruebas y cambios de código
      
  • Escribe consultas específicas: Evita solicitudes vagas que activen escaneo innecesario

  • Desglosa tareas complejas: Divide tareas grandes en interacciones enfocadas

  • Limpia el historial entre tareas: Usa /clear para reiniciar el contexto

Los costos pueden variar significativamente basándose en:

  • Tamaño de la base de código siendo analizada
  • Complejidad de las consultas
  • Número de archivos siendo buscados o modificados
  • Longitud del historial de conversación
  • Frecuencia de compactación de conversaciones
  • Procesos en segundo plano (generación de haiku, resumen de conversación)

Uso de tokens en segundo plano

Claude Code usa tokens para algunas funcionalidades en segundo plano incluso cuando está inactivo:

  • Generación de haiku: Pequeños mensajes creativos que aparecen mientras escribes (aproximadamente 1 centavo por día)
  • Resumen de conversación: Trabajos en segundo plano que resumen conversaciones previas para la función claude --resume
  • Procesamiento de comandos: Algunos comandos como /cost pueden generar solicitudes para verificar el estado

Estos procesos en segundo plano consumen una pequeña cantidad de tokens (típicamente menos de $0.04 por sesión) incluso sin interacción activa.

Para despliegues de equipo, recomendamos comenzar con un pequeño grupo piloto para establecer patrones de uso antes de un despliegue más amplio.