Gestiona los costos de manera efectiva
Aprende cómo rastrear y optimizar el uso de tokens y costos al usar Claude Code.
Claude Code consume tokens por cada interacción. El costo promedio es de 12 para el 90% de los usuarios.
Para uso en equipo, Claude Code cobra por consumo de tokens de API. En promedio, Claude Code cuesta ~$100-200/desarrollador por mes con Sonnet 4, aunque hay una gran variación dependiendo de cuántas instancias estén ejecutando los usuarios y si lo están usando en automatización.
Rastrea tus costos
- Usa
/cost
para ver el uso de la sesión actual - Usuarios de Anthropic Console:
- Revisa el uso histórico en Anthropic Console (requiere rol de Admin o Billing)
- Establece límites de gasto del workspace para el workspace de Claude Code (requiere rol de Admin)
- Usuarios de planes Pro y Max: El uso está incluido en tu suscripción
Gestión de costos para equipos
Al usar la API de Anthropic, puedes limitar el gasto total del workspace de Claude Code. Para configurar, sigue estas instrucciones. Los administradores pueden ver reportes de costos y uso siguiendo estas instrucciones.
En Bedrock y Vertex, Claude Code no envía métricas desde tu nube. Para obtener métricas de costos, varias empresas grandes reportaron usar LiteLLM, que es una herramienta de código abierto que ayuda a las empresas a rastrear gastos por clave. Este proyecto no está afiliado con Anthropic y no hemos auditado su seguridad.
Recomendaciones de límite de velocidad
Al configurar Claude Code para equipos, considera estas recomendaciones de Tokens Por Minuto (TPM) por usuario basadas en el tamaño de tu organización:
Tamaño del equipo | TPM por usuario |
---|---|
1-5 usuarios | 200k-300k |
5-20 usuarios | 100k-150k |
20-50 usuarios | 50k-75k |
50-100 usuarios | 25k-35k |
100-500 usuarios | 15k-20k |
500+ usuarios | 10k-15k |
Por ejemplo, si tienes 200 usuarios, podrías solicitar 20k TPM para cada usuario, o 4 millones de TPM total (200*20,000 = 4 millones).
El TPM por usuario disminuye a medida que crece el tamaño del equipo porque esperamos que menos usuarios usen Claude Code concurrentemente en organizaciones más grandes. Estos límites de velocidad se aplican a nivel de organización, no por usuario individual, lo que significa que los usuarios individuales pueden consumir temporalmente más que su parte calculada cuando otros no están usando activamente el servicio.
Si anticipas escenarios con uso concurrente inusualmente alto (como sesiones de entrenamiento en vivo con grupos grandes), podrías necesitar asignaciones de TPM más altas por usuario.
Reduce el uso de tokens
-
Conversaciones compactas:
-
Claude usa auto-compactar por defecto cuando el contexto excede el 95% de capacidad
-
Alternar auto-compactar: Ejecuta
/config
y navega a “Auto-compact enabled” -
Usa
/compact
manualmente cuando el contexto se vuelva grande -
Agrega instrucciones personalizadas:
/compact Focus on code samples and API usage
-
Personaliza la compactación agregando a CLAUDE.md:
-
-
Escribe consultas específicas: Evita solicitudes vagas que activen escaneo innecesario
-
Desglosa tareas complejas: Divide tareas grandes en interacciones enfocadas
-
Limpia el historial entre tareas: Usa
/clear
para reiniciar el contexto
Los costos pueden variar significativamente basándose en:
- Tamaño de la base de código siendo analizada
- Complejidad de las consultas
- Número de archivos siendo buscados o modificados
- Longitud del historial de conversación
- Frecuencia de compactación de conversaciones
- Procesos en segundo plano (generación de haiku, resumen de conversación)
Uso de tokens en segundo plano
Claude Code usa tokens para algunas funcionalidades en segundo plano incluso cuando está inactivo:
- Generación de haiku: Pequeños mensajes creativos que aparecen mientras escribes (aproximadamente 1 centavo por día)
- Resumen de conversación: Trabajos en segundo plano que resumen conversaciones previas para la función
claude --resume
- Procesamiento de comandos: Algunos comandos como
/cost
pueden generar solicitudes para verificar el estado
Estos procesos en segundo plano consumen una pequeña cantidad de tokens (típicamente menos de $0.04 por sesión) incluso sin interacción activa.
Para despliegues de equipo, recomendamos comenzar con un pequeño grupo piloto para establecer patrones de uso antes de un despliegue más amplio.