claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
donde genera su razonamiento interno. Claude incorpora ideas de este razonamiento antes de crear una respuesta final.
La respuesta de la API incluirá bloques de contenido thinking
, seguidos de bloques de contenido text
.
Aquí hay un ejemplo del formato de respuesta predeterminado:
thinking
, con el parámetro type
establecido en enabled
y el budget_tokens
a un presupuesto de tokens especificado para el pensamiento extendido.
El parámetro budget_tokens
determina el número máximo de tokens que Claude puede usar para su proceso de razonamiento interno. En los modelos Claude 4, este límite se aplica a los tokens de pensamiento completos, y no a la salida resumida. Presupuestos más grandes pueden mejorar la calidad de la respuesta al permitir un análisis más exhaustivo para problemas complejos, aunque Claude puede no usar todo el presupuesto asignado, especialmente en rangos superiores a 32k.
budget_tokens
debe establecerse en un valor menor que max_tokens
. Sin embargo, cuando se usa pensamiento intercalado con herramientas, puede exceder este límite ya que el límite de tokens se convierte en toda su ventana de contexto (200k tokens).
thinking_delta
.
Para más documentación sobre transmisión a través de la API de Mensajes, consulte Transmisión de Mensajes.
Aquí está cómo manejar la transmisión con pensamiento:
tool_choice: {"type": "auto"}
(el predeterminado) o tool_choice: {"type": "none"}
. Usar tool_choice: {"type": "any"}
o tool_choice: {"type": "tool", "name": "..."}
resultará en un error porque estas opciones fuerzan el uso de herramientas, lo cual es incompatible con el pensamiento extendido.
thinking
de vuelta a la API para el último mensaje del asistente. Incluya el bloque completo sin modificar de vuelta a la API para mantener la continuidad del razonamiento.
Ejemplo: Pasar bloques de pensamiento con resultados de herramientas
thinking
de vuelta a la API, y debe incluir el bloque completo sin modificar de vuelta a la API. Esto es crítico para mantener el flujo de razonamiento del modelo y la integridad de la conversación.
thinking
de turnos assistant
anteriores, sugerimos siempre pasar de vuelta todos los bloques de pensamiento a la API para cualquier conversación de múltiples turnos. La API:thinking
, toda la secuencia de bloques thinking
consecutivos debe coincidir con las salidas generadas por el modelo durante la solicitud original; no puede reorganizar o modificar la secuencia de estos bloques.
interleaved-thinking-2025-05-14
a su solicitud de API.
Aquí hay algunas consideraciones importantes para el pensamiento intercalado:
budget_tokens
puede exceder el parámetro max_tokens
, ya que representa el presupuesto total a través de todos los bloques de pensamiento dentro de un turno del asistente.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
en solicitudes a cualquier modelo, sin efecto.interleaved-thinking-2025-05-14
a cualquier modelo aparte de Claude Opus 4.1, Opus 4, o Sonnet 4, su solicitud fallará.Uso de herramientas sin pensamiento intercalado
Uso de herramientas con pensamiento intercalado
cache_control
Caché de prompt del sistema (preservado cuando cambia el pensamiento)
Caché de mensajes (invalidado cuando cambia el pensamiento)
cache_creation_input_tokens=1370
y cache_read_input_tokens=0
, probando que el caché basado en mensajes se invalida cuando cambian los parámetros de pensamiento.max_tokens
excedía la ventana de contexto del modelo, el sistema ajustaría automáticamente max_tokens
para encajar dentro del límite de contexto. Esto significaba que podía establecer un valor grande de max_tokens
y el sistema lo reduciría silenciosamente según fuera necesario.
Con los modelos Claude 3.7 y 4, max_tokens
(que incluye su presupuesto de pensamiento cuando el pensamiento está habilitado) se aplica como un límite estricto. El sistema ahora devolverá un error de validación si tokens de prompt + max_tokens
excede el tamaño de la ventana de contexto.
max_tokens
para ese turnomax_tokens
con los modelos Claude 3.7 y 4 de pensamiento extendido, puede necesitar:
max_tokens
a medida que cambia la longitud de su promptsignature
. Este campo se usa para verificar que los bloques de pensamiento fueron generados por Claude cuando se pasan de vuelta a la API.
signature_delta
dentro de un evento content_block_delta
justo antes del evento content_block_stop
.signature
son significativamente más largos en los modelos Claude 4 que en modelos anteriores.signature
es un campo opaco y no debe interpretarse o analizarse - existe únicamente para propósitos de verificación.signature
son compatibles entre plataformas (APIs de Anthropic, Amazon Bedrock, y Vertex AI). Los valores generados en una plataforma serán compatibles con otra.thinking
y se lo devolvemos como un bloque redacted_thinking
. Los bloques redacted_thinking
se desencriptan cuando se pasan de vuelta a la API, permitiendo a Claude continuar su respuesta sin perder contexto.
Al construir aplicaciones orientadas al cliente que usan pensamiento extendido:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
y redacted_thinking
de vuelta a la API en una conversación de múltiples turnos, debe incluir el bloque completo sin modificar de vuelta a la API para el último turno del asistente. Esto es crítico para mantener el flujo de razonamiento del modelo. Sugerimos siempre pasar de vuelta todos los bloques de pensamiento a la API. Para más detalles, consulte la sección Preservar bloques de pensamiento arriba.
Ejemplo: Trabajar con bloques de pensamiento redactados
redacted_thinking
que pueden aparecer en respuestas cuando el razonamiento interno de Claude contiene contenido marcado por sistemas de seguridad:Característica | Claude Sonnet 3.7 | Modelos Claude 4 |
---|---|---|
Salida de Pensamiento | Devuelve salida de pensamiento completa | Devuelve pensamiento resumido |
Pensamiento Intercalado | No compatible | Compatible con encabezado beta interleaved-thinking-2025-05-14 |
Modelo | Tokens de Entrada Base | Escrituras de Caché | Aciertos de Caché | Tokens de Salida |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
max_tokens
es mayor que 21,333. Cuando transmita, prepárese para manejar tanto bloques de contenido de pensamiento como de texto a medida que llegan.temperature
o top_k
así como uso forzado de herramientas.top_p
a valores entre 1 y 0.95.