max_tokens
, se facturan como tokens de salida y cuentan hacia los límites de tasa.
Sin embargo, los bloques de pensamiento anteriores se eliminan automáticamente del cálculo de la ventana de contexto por la API de Anthropic y no son parte del historial de conversación que el modelo “ve” para turnos subsecuentes, preservando la capacidad de tokens para el contenido real de la conversación.
El diagrama a continuación demuestra la gestión especializada de tokens cuando el pensamiento extendido está habilitado:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens
.thinking
como bloques redacted_thinking
.Arquitectura del primer turno
Manejo de resultados de herramientas (turno 2)
tool_result
. El bloque de pensamiento extendido debe ser devuelto con los resultados de herramienta correspondientes. Este es el único caso en el que tienes que devolver bloques de pensamiento.user
).Tercer Paso
User
.User
fuera del ciclo de uso de herramientas, Claude generará un nuevo bloque de pensamiento extendido y continuará desde ahí.Assistant
cuenta como parte de la ventana de contexto.context_window = input_tokens + current_turn_tokens
.tool_result
en el medio.Para más información sobre usar herramientas con pensamiento extendido, ve nuestra guía de pensamiento extendido.context-1m-2025-08-07
en tus solicitudes de API: