Construyendo con pensamiento extendido

El pensamiento extendido le da a Claude capacidades de razonamiento mejoradas para tareas complejas, mientras proporciona diferentes niveles de transparencia en su proceso de pensamiento paso a paso antes de entregar su respuesta final.

Modelos compatibles

El pensamiento extendido es compatible con los siguientes modelos:

Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219)

El comportamiento de la API difiere entre los modelos Claude 3.7 y Claude 4, pero las formas de la API permanecen exactamente iguales.

Para más información, consulte Diferencias en el pensamiento entre versiones de modelos.

Cómo funciona el pensamiento extendido

Cuando el pensamiento extendido está activado, Claude crea bloques de contenido thinking donde produce su razonamiento interno. Claude incorpora ideas de este razonamiento antes de elaborar una respuesta final.

La respuesta de la API incluirá bloques de contenido thinking, seguidos de bloques de contenido text.

Aquí hay un ejemplo del formato de respuesta predeterminado:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Déjame analizar esto paso a paso...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Basado en mi análisis..."
    }
  ]
}

Para más información sobre el formato de respuesta del pensamiento extendido, consulte la Referencia de la API de Mensajes.

Cómo usar el pensamiento extendido

Aquí hay un ejemplo de uso del pensamiento extendido en la API de Mensajes:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "¿Hay un número infinito de números primos tal que n mod 4 == 3?"
        }
    ]
}'

Para activar el pensamiento extendido, agregue un objeto thinking, con el parámetro type establecido en enabled y el budget_tokens a un presupuesto de tokens especificado para el pensamiento extendido.

El parámetro budget_tokens determina el número máximo de tokens que Claude puede usar para su proceso de razonamiento interno. En los modelos Claude 4, este límite se aplica a los tokens de pensamiento completos, y no a la salida resumida. Presupuestos más grandes pueden mejorar la calidad de la respuesta al permitir un análisis más exhaustivo para problemas complejos, aunque Claude puede no usar todo el presupuesto asignado, especialmente en rangos superiores a 32k.

budget_tokens debe establecerse en un valor menor que max_tokens. Sin embargo, cuando se usa pensamiento intercalado con herramientas, puede exceder este límite ya que el límite de tokens se convierte en toda su ventana de contexto (200k tokens).

Pensamiento resumido

Con el pensamiento extendido habilitado, la API de Mensajes para los modelos Claude 4 devuelve un resumen del proceso de pensamiento completo de Claude. El pensamiento resumido proporciona todos los beneficios de inteligencia del pensamiento extendido, mientras previene el mal uso.

Aquí hay algunas consideraciones importantes para el pensamiento resumido:

Se le cobra por los tokens de pensamiento completos generados por la solicitud original, no por los tokens del resumen.
El recuento de tokens de salida facturados no coincidirá con el recuento de tokens que ve en la respuesta.
Las primeras líneas de la salida de pensamiento son más verbosas, proporcionando razonamiento detallado que es particularmente útil para propósitos de ingeniería de prompts.
Mientras Anthropic busca mejorar la función de pensamiento extendido, el comportamiento de resumir está sujeto a cambios.
El resumen preserva las ideas clave del proceso de pensamiento de Claude con latencia mínima agregada, habilitando una experiencia de usuario transmisible y migración fácil de modelos Claude 3.7 a modelos Claude 4.
El resumen es procesado por un modelo diferente al que usted apunta en sus solicitudes. El modelo de pensamiento no ve la salida resumida.

Claude Sonnet 3.7 continúa devolviendo la salida de pensamiento completa.

En casos raros donde necesite acceso a la salida de pensamiento completa para modelos Claude 4, contacte a nuestro equipo de ventas.

Transmisión de pensamiento

Puede transmitir respuestas de pensamiento extendido usando eventos enviados por el servidor (SSE).

Cuando la transmisión está habilitada para el pensamiento extendido, recibe contenido de pensamiento a través de eventos thinking_delta.

Para más documentación sobre transmisión a través de la API de Mensajes, consulte Transmisión de Mensajes.

Aquí está cómo manejar la transmisión con pensamiento:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "¿Cuánto es 27 * 453?"
        }
    ]
}'

Ejemplo de salida de transmisión:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-20250514", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Déjame resolver esto paso a paso:\n\n1. Primero descomponer 27 * 453"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}

// Deltas de pensamiento adicionales...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}}

// Deltas de texto adicionales...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Cuando use transmisión con pensamiento habilitado, podría notar que el texto a veces llega en fragmentos más grandes alternando con entrega más pequeña, token por token. Este es el comportamiento esperado, especialmente para contenido de pensamiento.

El sistema de transmisión necesita procesar contenido en lotes para un rendimiento óptimo, lo que puede resultar en este patrón de entrega “fragmentado”, con posibles retrasos entre eventos de transmisión. Estamos trabajando continuamente para mejorar esta experiencia, con futuras actualizaciones enfocadas en hacer que el contenido de pensamiento se transmita más suavemente.

Pensamiento extendido con uso de herramientas

El pensamiento extendido puede usarse junto con uso de herramientas, permitiendo a Claude razonar a través de la selección de herramientas y el procesamiento de resultados.

Cuando use pensamiento extendido con uso de herramientas, tenga en cuenta las siguientes limitaciones:

Limitación de elección de herramienta: El uso de herramientas con pensamiento solo admite tool_choice: {"type": "auto"} (el predeterminado) o tool_choice: {"type": "none"}. Usar tool_choice: {"type": "any"} o tool_choice: {"type": "tool", "name": "..."} resultará en un error porque estas opciones fuerzan el uso de herramientas, lo cual es incompatible con el pensamiento extendido.
Preservar bloques de pensamiento: Durante el uso de herramientas, debe pasar bloques thinking de vuelta a la API para el último mensaje del asistente. Incluya el bloque completo sin modificar de vuelta a la API para mantener la continuidad del razonamiento.

Ejemplo: Pasar bloques de pensamiento con resultados de herramientas

Aquí hay un ejemplo práctico que muestra cómo preservar bloques de pensamiento al proporcionar resultados de herramientas:

weather_tool = {
    "name": "get_weather",
    "description": "Obtener el clima actual para una ubicación",
    "input_schema": {
        "type": "object",
        "properties": {
            "location": {"type": "string"}
        },
        "required": ["location"]
    }
}

# Primera solicitud - Claude responde con pensamiento y solicitud de herramienta
response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[weather_tool],
    messages=[
        {"role": "user", "content": "¿Cuál es el clima en París?"}
    ]
)

La respuesta de la API incluirá bloques de pensamiento, texto y tool_use:

{
    "content": [
        {
            "type": "thinking",
            "thinking": "El usuario quiere saber el clima actual en París. Tengo acceso a una función `get_weather`...",
            "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxYsNrcs...."
        },
        {
            "type": "text",
            "text": "Puedo ayudarte a obtener la información del clima actual para París. Déjame verificar eso por ti"
        },
        {
            "type": "tool_use",
            "id": "toolu_01CswdEQBMshySk6Y9DFKrfq",
            "name": "get_weather",
            "input": {
                "location": "París"
            }
        }
    ]
}

Ahora continuemos la conversación y usemos la herramienta

# Extraer bloque de pensamiento y bloque de uso de herramienta
thinking_block = next((block for block in response.content
                      if block.type == 'thinking'), None)
tool_use_block = next((block for block in response.content
                      if block.type == 'tool_use'), None)

# Llamar a su API de clima real, aquí es donde iría su llamada API real
# supongamos que esto es lo que obtenemos de vuelta
weather_data = {"temperature": 88}

# Segunda solicitud - Incluir bloque de pensamiento y resultado de herramienta
# No se generarán nuevos bloques de pensamiento en la respuesta
continuation = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[weather_tool],
    messages=[
        {"role": "user", "content": "¿Cuál es el clima en París?"},
        # note que el thinking_block se pasa así como el tool_use_block
        # si esto no se pasa, se genera un error
        {"role": "assistant", "content": [thinking_block, tool_use_block]},
        {"role": "user", "content": [{
            "type": "tool_result",
            "tool_use_id": tool_use_block.id,
            "content": f"Temperatura actual: {weather_data['temperature']}°F"
        }]}
    ]
)

La respuesta de la API ahora solo incluirá texto

{
    "content": [
        {
            "type": "text",
            "text": "Actualmente en París, la temperatura es 88°F (31°C)"
        }
    ]
}

Preservar bloques de pensamiento

Durante el uso de herramientas, debe pasar bloques thinking de vuelta a la API, y debe incluir el bloque completo sin modificar de vuelta a la API. Esto es crítico para mantener el flujo de razonamiento del modelo y la integridad de la conversación.

Aunque puede omitir bloques thinking de turnos assistant anteriores, sugerimos siempre pasar de vuelta todos los bloques de pensamiento a la API para cualquier conversación de múltiples turnos. La API:

Filtrará automáticamente los bloques de pensamiento proporcionados
Usará los bloques de pensamiento relevantes necesarios para preservar el razonamiento del modelo
Solo facturará por los tokens de entrada para los bloques mostrados a Claude

Cuando Claude invoca herramientas, está pausando su construcción de una respuesta para esperar información externa. Cuando se devuelven los resultados de las herramientas, Claude continuará construyendo esa respuesta existente. Esto hace necesario preservar los bloques de pensamiento durante el uso de herramientas, por un par de razones:

Continuidad del razonamiento: Los bloques de pensamiento capturan el razonamiento paso a paso de Claude que llevó a las solicitudes de herramientas. Cuando publique resultados de herramientas, incluir el pensamiento original asegura que Claude pueda continuar su razonamiento desde donde lo dejó.
Mantenimiento del contexto: Aunque los resultados de herramientas aparecen como mensajes de usuario en la estructura de la API, son parte de un flujo de razonamiento continuo. Preservar los bloques de pensamiento mantiene este flujo conceptual a través de múltiples llamadas a la API. Para más información sobre gestión de contexto, consulte nuestra guía sobre ventanas de contexto.

Importante: Al proporcionar bloques thinking, toda la secuencia de bloques thinking consecutivos debe coincidir con las salidas generadas por el modelo durante la solicitud original; no puede reorganizar o modificar la secuencia de estos bloques.

Pensamiento intercalado

El pensamiento extendido con uso de herramientas en modelos Claude 4 admite pensamiento intercalado, que permite a Claude pensar entre llamadas de herramientas y hacer razonamiento más sofisticado después de recibir resultados de herramientas.

Con pensamiento intercalado, Claude puede:

Razonar sobre los resultados de una llamada de herramienta antes de decidir qué hacer a continuación
Encadenar múltiples llamadas de herramientas con pasos de razonamiento en el medio
Tomar decisiones más matizadas basadas en resultados intermedios

Para habilitar el pensamiento intercalado, agregue el encabezado beta interleaved-thinking-2025-05-14 a su solicitud de API.

Aquí hay algunas consideraciones importantes para el pensamiento intercalado:

Con pensamiento intercalado, el budget_tokens puede exceder el parámetro max_tokens, ya que representa el presupuesto total a través de todos los bloques de pensamiento dentro de un turno del asistente.
El pensamiento intercalado solo es compatible para herramientas usadas a través de la API de Mensajes.
El pensamiento intercalado es compatible solo para modelos Claude 4, con el encabezado beta interleaved-thinking-2025-05-14.
Las llamadas directas a la API de Anthropic le permiten pasar interleaved-thinking-2025-05-14 en solicitudes a cualquier modelo, sin efecto.
En plataformas de terceros (por ejemplo, Amazon Bedrock y Vertex AI), si pasa interleaved-thinking-2025-05-14 a cualquier modelo aparte de Claude Opus 4 o Sonnet 4, su solicitud fallará.

Uso de herramientas sin pensamiento intercalado

import anthropic

client = anthropic.Anthropic()

# Definir herramientas
calculator_tool = {
    "name": "calculator",
    "description": "Realizar cálculos matemáticos",
    "input_schema": {
        "type": "object",
        "properties": {
            "expression": {
                "type": "string",
                "description": "Expresión matemática a evaluar"
            }
        },
        "required": ["expression"]
    }
}

database_tool = {
    "name": "database_query",
    "description": "Consultar base de datos de productos",
    "input_schema": {
        "type": "object",
        "properties": {
            "query": {
                "type": "string",
                "description": "Consulta SQL a ejecutar"
            }
        },
        "required": ["query"]
    }
}

# Primera solicitud - Claude piensa una vez antes de todas las llamadas de herramientas
response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    messages=[{
        "role": "user",
        "content": "¿Cuál es el ingreso total si vendimos 150 unidades del producto A a $50 cada una, y cómo se compara esto con nuestro ingreso mensual promedio de la base de datos?"
    }]
)

# La respuesta incluye pensamiento seguido de usos de herramientas
# Nota: Claude piensa una vez al principio, luego toma todas las decisiones de herramientas
print("Primera respuesta:")
for block in response.content:
    if block.type == "thinking":
        print(f"Pensamiento (resumido): {block.thinking}")
    elif block.type == "tool_use":
        print(f"Uso de herramienta: {block.name} con entrada {block.input}")
    elif block.type == "text":
        print(f"Texto: {block.text}")

# Ejecutaría las herramientas y devolvería resultados...
# Después de obtener ambos resultados de herramientas de vuelta, Claude responde directamente sin pensamiento adicional

En este ejemplo sin pensamiento intercalado:

Claude piensa una vez al principio para entender la tarea
Toma todas las decisiones de uso de herramientas por adelantado
Cuando se devuelven los resultados de herramientas, Claude inmediatamente proporciona una respuesta sin pensamiento adicional

Uso de herramientas con pensamiento intercalado

import anthropic

client = anthropic.Anthropic()

# Las mismas definiciones de herramientas que antes
calculator_tool = {
    "name": "calculator",
    "description": "Realizar cálculos matemáticos",
    "input_schema": {
        "type": "object",
        "properties": {
            "expression": {
                "type": "string",
                "description": "Expresión matemática a evaluar"
            }
        },
        "required": ["expression"]
    }
}

database_tool = {
    "name": "database_query",
    "description": "Consultar base de datos de productos",
    "input_schema": {
        "type": "object",
        "properties": {
            "query":  {
                "type": "string",
                "description": "Consulta SQL a ejecutar"
            }
        },
        "required": ["query"]
    }
}

# Primera solicitud con pensamiento intercalado habilitado
response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[{
        "role": "user",
        "content": "¿Cuál es el ingreso total si vendimos 150 unidades del producto A a $50 cada una, y cómo se compara esto con nuestro ingreso mensual promedio de la base de datos?"
    }]
)

print("Respuesta inicial:")
thinking_blocks = []
tool_use_blocks = []

for block in response.content:
    if block.type == "thinking":
        thinking_blocks.append(block)
        print(f"Pensamiento: {block.thinking}")
    elif block.type == "tool_use":
        tool_use_blocks.append(block)
        print(f"Uso de herramienta: {block.name} con entrada {block.input}")
    elif block.type == "text":
        print(f"Texto: {block.text}")

# Primer resultado de herramienta (calculadora)
calculator_result = "7500"  # 150 * 50

# Continuar con el primer resultado de herramienta
response2 = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[
        {
            "role": "user",
            "content": "¿Cuál es el ingreso total si vendimos 150 unidades del producto A a $50 cada una, y cómo se compara esto con nuestro ingreso mensual promedio de la base de datos?"
        },
        {
            "role": "assistant",
            "content": [thinking_blocks[0], tool_use_blocks[0]]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[0].id,
                "content": calculator_result
            }]
        }
    ]
)

print("\nDespués del resultado de la calculadora:")
# Con pensamiento intercalado, Claude puede pensar sobre el resultado de la calculadora
# antes de decidir consultar la base de datos
for block in response2.content:
    if block.type == "thinking":
        thinking_blocks.append(block)
        print(f"Pensamiento intercalado: {block.thinking}")
    elif block.type == "tool_use":
        tool_use_blocks.append(block)
        print(f"Uso de herramienta: {block.name} con entrada {block.input}")

# Segundo resultado de herramienta (base de datos)
database_result = "5200"  # Ejemplo de ingreso mensual promedio

# Continuar con el segundo resultado de herramienta
response3 = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[
        {
            "role": "user",
            "content": "¿Cuál es el ingreso total si vendimos 150 unidades del producto A a $50 cada una, y cómo se compara esto con nuestro ingreso mensual promedio de la base de datos?"
        },
        {
            "role": "assistant",
            "content": [thinking_blocks[0], tool_use_blocks[0]]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[0].id,
                "content": calculator_result
            }]
        },
        {
            "role": "assistant",
            "content": thinking_blocks[1:] + tool_use_blocks[1:]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[1].id,
                "content": database_result
            }]
        }
    ]
)

print("\nDespués del resultado de la base de datos:")
# Con pensamiento intercalado, Claude puede pensar sobre ambos resultados
# antes de formular la respuesta final
for block in response3.content:
    if block.type == "thinking":
        print(f"Pensamiento final: {block.thinking}")
    elif block.type == "text":
        print(f"Respuesta final: {block.text}")

En este ejemplo con pensamiento intercalado:

Claude piensa sobre la tarea inicialmente
Después de recibir el resultado de la calculadora, Claude puede pensar de nuevo sobre lo que significa ese resultado
Claude luego decide cómo consultar la base de datos basado en el primer resultado
Después de recibir el resultado de la base de datos, Claude piensa una vez más sobre ambos resultados antes de formular una respuesta final
El presupuesto de pensamiento se distribuye a través de todos los bloques de pensamiento dentro del turno

Este patrón permite cadenas de razonamiento más sofisticadas donde la salida de cada herramienta informa la siguiente decisión.

Pensamiento extendido con caché de prompts

Caché de prompts con pensamiento tiene varias consideraciones importantes:

Las tareas de pensamiento extendido a menudo toman más de 5 minutos para completarse. Considere usar la duración de caché de 1 hora para mantener aciertos de caché a través de sesiones de pensamiento más largas y flujos de trabajo de múltiples pasos.

Eliminación de contexto de bloques de pensamiento

Los bloques de pensamiento de turnos anteriores se eliminan del contexto, lo que puede afectar los puntos de interrupción del caché
Al continuar conversaciones con uso de herramientas, los bloques de pensamiento se almacenan en caché y cuentan como tokens de entrada cuando se leen del caché
Esto crea un compromiso: aunque los bloques de pensamiento no consumen espacio de ventana de contexto visualmente, aún cuentan hacia su uso de tokens de entrada cuando están en caché
Si el pensamiento se desactiva, las solicitudes fallarán si pasa contenido de pensamiento en el turno actual de uso de herramientas. En otros contextos, el contenido de pensamiento pasado a la API simplemente se ignora

Patrones de invalidación de caché

Los cambios a los parámetros de pensamiento (habilit ado/deshabilitado o asignación de presupuesto) invalidan los puntos de interrupción del caché de mensajes
Pensamiento intercalado amplifica la invalidación del caché, ya que los bloques de pensamiento pueden ocurrir entre múltiples llamadas de herramientas
Los prompts del sistema y las herramientas permanecen en caché a pesar de los cambios en los parámetros de pensamiento o la eliminación de bloques

Aunque los bloques de pensamiento se eliminan para el caché y los cálculos de contexto, deben preservarse al continuar conversaciones con uso de herramientas, especialmente con pensamiento intercalado.

Entender el comportamiento de caché de bloques de pensamiento

Cuando use pensamiento extendido con uso de herramientas, los bloques de pensamiento exhiben un comportamiento de caché específico que afecta el conteo de tokens:

Cómo funciona:

El caché solo ocurre cuando hace una solicitud subsecuente que incluye resultados de herramientas
Cuando se hace la solicitud subsecuente, el historial de conversación anterior (incluyendo bloques de pensamiento) puede ser almacenado en caché
Estos bloques de pensamiento en caché cuentan como tokens de entrada en sus métricas de uso cuando se leen del caché
Cuando se incluye un bloque de usuario que no es resultado de herramienta, todos los bloques de pensamiento anteriores se ignoran y se eliminan del contexto

Ejemplo de flujo detallado:

Solicitud 1:

Usuario: "¿Cuál es el clima en París?"

Respuesta 1:

[thinking_block_1] + [tool_use block 1]

Solicitud 2:

Usuario: ["¿Cuál es el clima en París?"], 
Asistente: [thinking_block_1] + [tool_use block 1], 
Usuario: [tool_result_1, cache=True]

Respuesta 2:

[thinking_block_2] + [text block 2]

La Solicitud 2 escribe un caché del contenido de la solicitud (no la respuesta). El caché incluye el mensaje original del usuario, el primer bloque de pensamiento, el bloque de uso de herramienta, y el resultado de la herramienta.

Solicitud 3:

Usuario: ["¿Cuál es el clima en París?"], 
Asistente: [thinking_block_1] + [tool_use block 1], 
Usuario: [tool_result_1, cache=True], 
Asistente: [thinking_block_2] + [text block 2], 
Usuario: [Respuesta de texto, cache=True]

Porque se incluyó un bloque de usuario que no es resultado de herramienta, todos los bloques de pensamiento anteriores se ignoran. Esta solicitud será procesada igual que:

Usuario: ["¿Cuál es el clima en París?"], 
Asistente: [tool_use block 1], 
Usuario: [tool_result_1, cache=True], 
Asistente: [text block 2], 
Usuario: [Respuesta de texto, cache=True]

Puntos clave:

Este comportamiento de caché ocurre automáticamente, incluso sin marcadores explícitos cache_control
Este comportamiento es consistente ya sea usando pensamiento regular o pensamiento intercalado

Caché de prompt del sistema (preservado cuando cambia el pensamiento)

from anthropic import Anthropic
import requests
from bs4 import BeautifulSoup

client = Anthropic()

def fetch_article_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Eliminar elementos script y style
    for script in soup(["script", "style"]):
        script.decompose()

    # Obtener texto
    text = soup.get_text()

    # Dividir en líneas y eliminar espacios al inicio y final en cada una
    lines = (line.strip() for line in text.splitlines())
    # Dividir multi-titulares en una línea cada uno
    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
    # Eliminar líneas en blanco
    text = '\n'.join(chunk for chunk in chunks if chunk)

    return text

# Obtener el contenido del artículo
book_url = "https://www.gutenberg.org/cache/epub/1342/pg1342.txt"
book_content = fetch_article_content(book_url)
# Usar solo suficiente texto para caché (primeros capítulos)
LARGE_TEXT = book_content[:5000]

SYSTEM_PROMPT=[
    {
        "type": "text",
        "text": "Eres un asistente de IA que tiene la tarea de análisis literario. Analiza el siguiente texto cuidadosamente.",
    },
    {
        "type": "text",
        "text": LARGE_TEXT,
        "cache_control": {"type": "ephemeral"}
    }
]

MESSAGES = [
    {
        "role": "user",
        "content": "Analiza el tono de este pasaje."
    }
]

# Primera solicitud - establecer caché
print("Primera solicitud - estableciendo caché")
response1 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    system=SYSTEM_PROMPT,
    messages=MESSAGES
)

print(f"Uso de primera respuesta: {response1.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response1.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analiza los personajes en este pasaje."
})
# Segunda solicitud - mismos parámetros de pensamiento (acierto de caché esperado)
print("\nSegunda solicitud - mismos parámetros de pensamiento (acierto de caché esperado)")
response2 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    system=SYSTEM_PROMPT,
    messages=MESSAGES
)

print(f"Uso de segunda respuesta: {response2.usage}")

# Tercera solicitud - diferentes parámetros de pensamiento (fallo de caché para mensajes)
print("\nTercera solicitud - diferentes parámetros de pensamiento (fallo de caché para mensajes)")
response3 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000  # Presupuesto de pensamiento cambiado
    },
    system=SYSTEM_PROMPT,  # El prompt del sistema permanece en caché
    messages=MESSAGES  # El caché de mensajes se invalida
)

print(f"Uso de tercera respuesta: {response3.usage}")

Caché de mensajes (invalidado cuando cambia el pensamiento)

from anthropic import Anthropic
import requests
from bs4 import BeautifulSoup

client = Anthropic()

def fetch_article_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Eliminar elementos script y style
    for script in soup(["script", "style"]):
        script.decompose()

    # Obtener texto
    text = soup.get_text()

    # Dividir en líneas y eliminar espacios al inicio y final en cada una
    lines = (line.strip() for line in text.splitlines())
    # Dividir multi-titulares en una línea cada uno
    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
    # Eliminar líneas en blanco
    text = '\n'.join(chunk for chunk in chunks if chunk)

    return text

# Obtener el contenido del artículo
book_url = "https://www.gutenberg.org/cache/epub/1342/pg1342.txt"
book_content = fetch_article_content(book_url)
# Usar solo suficiente texto para caché (primeros capítulos)
LARGE_TEXT = book_content[:5000]

# Sin prompt del sistema - caché en mensajes en su lugar
MESSAGES = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": LARGE_TEXT,
                "cache_control": {"type": "ephemeral"},
            },
            {
                "type": "text",
                "text": "Analiza el tono de este pasaje."
            }
        ]
    }
]

# Primera solicitud - establecer caché
print("Primera solicitud - estableciendo caché")
response1 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    messages=MESSAGES
)

print(f"Uso de primera respuesta: {response1.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response1.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analiza los personajes en este pasaje."
})
# Segunda solicitud - mismos parámetros de pensamiento (acierto de caché esperado)
print("\nSegunda solicitud - mismos parámetros de pensamiento (acierto de caché esperado)")
response2 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000  # Mismo presupuesto de pensamiento
    },
    messages=MESSAGES
)

print(f"Uso de segunda respuesta: {response2.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response2.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analiza el escenario en este pasaje."
})

# Tercera solicitud - diferente presupuesto de pensamiento (fallo de caché esperado)
print("\nTercera solicitud - diferente presupuesto de pensamiento (fallo de caché esperado)")
response3 = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000  # Diferente presupuesto de pensamiento rompe el caché
    },
    messages=MESSAGES
)

print(f"Uso de tercera respuesta: {response3.usage}")

Aquí está la salida del script (puede ver números ligeramente diferentes)

Primera solicitud - estableciendo caché
Uso de primera respuesta: { cache_creation_input_tokens: 1370, cache_read_input_tokens: 0, input_tokens: 17, output_tokens: 700 }

Segunda solicitud - mismos parámetros de pensamiento (acierto de caché esperado)

Uso de segunda respuesta: { cache_creation_input_tokens: 0, cache_read_input_tokens: 1370, input_tokens: 303, output_tokens: 874 }

Tercera solicitud - diferente presupuesto de pensamiento (fallo de caché esperado)
Uso de tercera respuesta: { cache_creation_input_tokens: 1370, cache_read_input_tokens: 0, input_tokens: 747, output_tokens: 619 }

Este ejemplo demuestra que cuando el caché se configura en el array de mensajes, cambiar los parámetros de pensamiento (budget_tokens aumentado de 4000 a 8000) invalida el caché. La tercera solicitud no muestra acierto de caché con cache_creation_input_tokens=1370 y cache_read_input_tokens=0, probando que el caché basado en mensajes se invalida cuando cambian los parámetros de pensamiento.

Tokens máximos y tamaño de ventana de contexto con pensamiento extendido

En modelos Claude más antiguos (anteriores a Claude Sonnet 3.7), si la suma de tokens de prompt y max_tokens excedía la ventana de contexto del modelo, el sistema ajustaría automáticamente max_tokens para caber dentro del límite de contexto. Esto significaba que podía establecer un valor grande de max_tokens y el sistema lo reduciría silenciosamente según fuera necesario.

Con los modelos Claude 3.7 y 4, max_tokens (que incluye su presupuesto de pensamiento cuando el pensamiento está habilitado) se aplica como un límite estricto. El sistema ahora devolverá un error de validación si tokens de prompt + max_tokens excede el tamaño de la ventana de contexto.

Puede leer nuestra guía sobre ventanas de contexto para una inmersión más profunda.

La ventana de contexto con pensamiento extendido

Al calcular el uso de la ventana de contexto con pensamiento habilitado, hay algunas consideraciones a tener en cuenta:

Los bloques de pensamiento de turnos anteriores se eliminan y no se cuentan hacia su ventana de contexto
El pensamiento del turno actual cuenta hacia su límite max_tokens para ese turno

El diagrama a continuación demuestra la gestión especializada de tokens cuando el pensamiento extendido está habilitado:

La ventana de contexto efectiva se calcula como:

ventana de contexto =
  (tokens de entrada actuales - tokens de pensamiento anteriores) +
  (tokens de pensamiento + tokens de pensamiento encriptados + tokens de salida de texto)

Recomendamos usar la API de conteo de tokens para obtener conteos de tokens precisos para su caso de uso específico, especialmente cuando trabaje con conversaciones de múltiples turnos que incluyen pensamiento.

La ventana de contexto con pensamiento extendido y uso de herramientas

Cuando use pensamiento extendido con uso de herramientas, los bloques de pensamiento deben preservarse explícitamente y devolverse con los resultados de las herramientas.

El cálculo de ventana de contexto efectiva para pensamiento extendido con uso de herramientas se convierte en:

ventana de contexto =
  (tokens de entrada actuales + tokens de pensamiento anteriores + tokens de uso de herramientas) +
  (tokens de pensamiento + tokens de pensamiento encriptados + tokens de salida de texto)

El diagrama a continuación ilustra la gestión de tokens para pensamiento extendido con uso de herramientas:

Gestionar tokens con pensamiento extendido

Dado el comportamiento de la ventana de contexto y max_tokens con los modelos Claude 3.7 y 4 de pensamiento extendido, puede necesitar:

Monitorear y gestionar más activamente su uso de tokens
Ajustar valores de max_tokens a medida que cambia la longitud de su prompt
Potencialmente usar los endpoints de conteo de tokens más frecuentemente
Ser consciente de que los bloques de pensamiento anteriores no se acumulan en su ventana de contexto

Este cambio se ha hecho para proporcionar un comportamiento más predecible y transparente, especialmente ya que los límites máximos de tokens han aumentado significativamente.

Encriptación de pensamiento

El contenido de pensamiento completo se encripta y se devuelve en el campo signature. Este campo se usa para verificar que los bloques de pensamiento fueron generados por Claude cuando se pasan de vuelta a la API.

Solo es estrictamente necesario enviar de vuelta bloques de pensamiento cuando se usan herramientas con pensamiento extendido. De lo contrario, puede omitir bloques de pensamiento de turnos anteriores, o dejar que la API los elimine por usted si los pasa de vuelta.

Si envía de vuelta bloques de pensamiento, recomendamos pasar todo de vuelta como lo recibió para consistencia y para evitar problemas potenciales.

Aquí hay algunas consideraciones importantes sobre la encriptación de pensamiento:

Cuando transmite respuestas, la firma se agrega a través de un signature_delta dentro de un evento content_block_delta justo antes del evento content_block_stop.
Los valores de signature son significativamente más largos en Claude 4 que en modelos anteriores.
El campo signature es un campo opaco y no debe interpretarse o analizarse - existe únicamente para propósitos de verificación.
Los valores de signature son compatibles entre plataformas (APIs de Anthropic, Amazon Bedrock, y Vertex AI). Los valores generados en una plataforma serán compatibles con otra.

Redacción de pensamiento

Ocasionalmente el razonamiento interno de Claude será marcado por nuestros sistemas de seguridad. Cuando esto ocurre, encriptamos parte o todo el bloque thinking y se lo devolvemos como un bloque redacted_thinking. Los bloques redacted_thinking se desencriptan cuando se pasan de vuelta a la API, permitiendo a Claude continuar su respuesta sin perder contexto.

Al construir aplicaciones orientadas al cliente que usan pensamiento extendido:

Sea consciente de que los bloques de pensamiento redactados contienen contenido encriptado que no es legible para humanos
Considere proporcionar una explicación simple como: “Parte del razonamiento interno de Claude ha sido automáticamente encriptado por razones de seguridad. Esto no afecta la calidad de las respuestas.”
Si muestra bloques de pensamiento a los usuarios, puede filtrar bloques redactados mientras preserva bloques de pensamiento normales
Sea transparente de que usar funciones de pensamiento extendido puede ocasionalmente resultar en que algo del razonamiento sea encriptado
Implemente manejo de errores apropiado para gestionar pensamiento redactado elegantemente sin romper su UI

Aquí hay un ejemplo que muestra tanto bloques de pensamiento normales como redactados:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Déjame analizar esto paso a paso...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Basado en mi análisis..."
    }
  ]
}

Ver bloques de pensamiento redactados en su salida es comportamiento esperado. El modelo aún puede usar este razonamiento redactado para informar sus respuestas mientras mantiene barreras de seguridad.

Si necesita probar el manejo de pensamiento redactado en su aplicación, puede usar esta cadena de prueba especial como su prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

Al pasar bloques thinking y redacted_thinking de vuelta a la API en una conversación de múltiples turnos, debe incluir el bloque completo sin modificar de vuelta a la API para el último turno del asistente. Esto es crítico para mantener el flujo de razonamiento del modelo. Sugerimos siempre pasar de vuelta todos los bloques de pensamiento a la API. Para más detalles, consulte la sección Preservar bloques de pensamiento arriba.

Ejemplo: Trabajar con bloques de pensamiento redactados

Este ejemplo demuestra cómo manejar bloques redacted_thinking que pueden aparecer en respuestas cuando el razonamiento interno de Claude contiene contenido marcado por sistemas de seguridad:

import anthropic

client = anthropic.Anthropic()

# Usando un prompt especial que activa pensamiento redactado (solo para propósitos de demostración)
response = client.messages.create(
    model="claude-3-7-sonnet-20250219",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[{
        "role": "user",
        "content": "ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB"
    }]
)

# Identificar bloques de pensamiento redactados
has_redacted_thinking = any(
    block.type == "redacted_thinking" for block in response.content
)

if has_redacted_thinking:
    print("La respuesta contiene bloques de pensamiento redactados")
    # Estos bloques aún son utilizables en solicitudes subsecuentes

    # Extraer todos los bloques (tanto redactados como no redactados)
    all_thinking_blocks = [
        block for block in response.content
        if block.type in ["thinking", "redacted_thinking"]
    ]

    # Al pasar a solicitudes subsecuentes, incluir todos los bloques sin modificación
    # Esto preserva la integridad del razonamiento de Claude

    print(f"Se encontraron {len(all_thinking_blocks)} bloques de pensamiento en total")
    print(f"Estos bloques aún son facturables como tokens de salida")

Diferencias en el pensamiento entre versiones de modelos

La API de Mensajes maneja el pensamiento de manera diferente entre los modelos Claude Sonnet 3.7 y Claude 4, principalmente en el comportamiento de redacción y resumir.

Consulte la tabla a continuación para una comparación condensada:

Característica	Claude Sonnet 3.7	Modelos Claude 4
Salida de Pensamiento	Devuelve salida de pensamiento completa	Devuelve pensamiento resumido
Pensamiento Intercalado	No compatible	Compatible con encabezado beta `interleaved-thinking-2025-05-14`

Precios

El pensamiento extendido usa el esquema de precios de tokens estándar:

Modelo	Tokens de Entrada Base	Escrituras de Caché	Aciertos de Caché	Tokens de Salida
Claude Opus 4	$15 / MTok	$18.75 / MTok	$1.50 / MTok	$75 / MTok
Claude Sonnet 4	$3 / MTok	$3.75 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 3.7	$3 / MTok	$3.75 / MTok	$0.30 / MTok	$15 / MTok

El proceso de pensamiento incurre en cargos por:

Tokens usados durante el pensamiento (tokens de salida)
Bloques de pensamiento del último turno del asistente incluidos en solicitudes subsecuentes (tokens de entrada)
Tokens de salida de texto estándar

Cuando el pensamiento extendido está habilitado, un prompt del sistema especializado se incluye automáticamente para apoyar esta función.

Cuando se usa pensamiento resumido:

Tokens de entrada: Tokens en su solicitud original (excluye tokens de pensamiento de turnos anteriores)
Tokens de salida (facturados): Los tokens de pensamiento originales que Claude generó internamente
Tokens de salida (visibles): Los tokens de pensamiento resumidos que ve en la respuesta
Sin cargo: Tokens usados para generar el resumen

El recuento de tokens de salida facturados no coincidirá con el recuento de tokens visibles en la respuesta. Se le factura por el proceso de pensamiento completo, no por el resumen que ve.

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Optimización de presupuesto: El presupuesto mínimo es 1,024 tokens. Sugerimos comenzar en el mínimo y aumentar el presupuesto de pensamiento incrementalmente para encontrar el rango óptimo para su caso de uso. Conteos de tokens más altos permiten razonamiento más comprensivo pero con rendimientos decrecientes dependiendo de la tarea. Aumentar el presupuesto puede mejorar la calidad de la respuesta con el compromiso de mayor latencia. Para tareas críticas, pruebe diferentes configuraciones para encontrar el equilibrio óptimo. Note que el presupuesto de pensamiento es un objetivo más que un límite estricto—el uso real de tokens puede variar basado en la tarea.
Puntos de partida: Comience con presupuestos de pensamiento más grandes (16k+ tokens) para tareas complejas y ajuste basado en sus necesidades.
Presupuestos grandes: Para presupuestos de pensamiento superiores a 32k, recomendamos usar procesamiento por lotes para evitar problemas de red. Las solicitudes que empujan al modelo a pensar por encima de 32k tokens causan solicitudes de larga duración que podrían chocar contra tiempos de espera del sistema y límites de conexión abierta.
Seguimiento de uso de tokens: Monitoree el uso de tokens de pensamiento para optimizar costos y rendimiento.

Consideraciones de rendimiento

Tiempos de respuesta: Esté preparado para tiempos de respuesta potencialmente más largos debido al procesamiento adicional requerido para el proceso de razonamiento. Considere que generar bloques de pensamiento puede aumentar el tiempo de respuesta general.
Requisitos de transmisión: La transmisión es requerida cuando max_tokens es mayor que 21,333. Cuando transmita, esté preparado para manejar tanto bloques de contenido de pensamiento como de texto a medida que llegan.

Compatibilidad de características

El pensamiento no es compatible con modificaciones de temperature o top_k así como uso forzado de herramientas.
Cuando el pensamiento está habilitado, puede establecer top_p a valores entre 1 y 0.95.
No puede pre-llenar respuestas cuando el pensamiento está habilitado.
Los cambios al presupuesto de pensamiento invalidan prefijos de prompt en caché que incluyen mensajes. Sin embargo, prompts del sistema en caché y definiciones de herramientas continuarán funcionando cuando cambien los parámetros de pensamiento.

Pautas de uso

Selección de tareas: Use pensamiento extendido para tareas particularmente complejas que se benefician del razonamiento paso a paso como matemáticas, codificación y análisis.
Manejo de contexto: No necesita eliminar bloques de pensamiento anteriores usted mismo. La API de Anthropic automáticamente ignora bloques de pensamiento de turnos anteriores y no se incluyen al calcular el uso de contexto.
Ingeniería de prompts: Revise nuestros consejos de prompting de pensamiento extendido si quiere maximizar las capacidades de pensamiento de Claude.

Próximos pasos

Pruebe el libro de cocina de pensamiento extendido

Explore ejemplos prácticos de pensamiento en nuestro libro de cocina.

Consejos de prompting de pensamiento extendido

Aprenda mejores prácticas de ingeniería de prompts para pensamiento extendido.

Caché de prompts Streaming de Mensajes

On this page

Modelos compatibles
Cómo funciona el pensamiento extendido
Cómo usar el pensamiento extendido
Pensamiento resumido
Transmisión de pensamiento
Pensamiento extendido con uso de herramientas
Preservar bloques de pensamiento
Pensamiento intercalado
Pensamiento extendido con caché de prompts
Entender el comportamiento de caché de bloques de pensamiento
Tokens máximos y tamaño de ventana de contexto con pensamiento extendido
La ventana de contexto con pensamiento extendido
La ventana de contexto con pensamiento extendido y uso de herramientas
Gestionar tokens con pensamiento extendido
Encriptación de pensamiento
Redacción de pensamiento
Diferencias en el pensamiento entre versiones de modelos
Precios
Mejores prácticas y consideraciones para el pensamiento extendido
Trabajar con presupuestos de pensamiento
Consideraciones de rendimiento
Compatibilidad de características
Pautas de uso
Próximos pasos

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

Construyendo con pensamiento extendido

Modelos compatibles

Cómo funciona el pensamiento extendido

Cómo usar el pensamiento extendido

Pensamiento resumido

Transmisión de pensamiento

Pensamiento extendido con uso de herramientas

Preservar bloques de pensamiento

Pensamiento intercalado

Pensamiento extendido con caché de prompts

Entender el comportamiento de caché de bloques de pensamiento

Tokens máximos y tamaño de ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido y uso de herramientas

Gestionar tokens con pensamiento extendido

Encriptación de pensamiento

Redacción de pensamiento

Diferencias en el pensamiento entre versiones de modelos

Precios

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Consideraciones de rendimiento

Compatibilidad de características

Pautas de uso

Próximos pasos

Pruebe el libro de cocina de pensamiento extendido

Consejos de prompting de pensamiento extendido

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

​Modelos compatibles

​Cómo funciona el pensamiento extendido

​Cómo usar el pensamiento extendido

​Pensamiento resumido

​Transmisión de pensamiento

​Pensamiento extendido con uso de herramientas

​Preservar bloques de pensamiento

​Pensamiento intercalado

​Pensamiento extendido con caché de prompts

​Entender el comportamiento de caché de bloques de pensamiento

​Tokens máximos y tamaño de ventana de contexto con pensamiento extendido

​La ventana de contexto con pensamiento extendido

​La ventana de contexto con pensamiento extendido y uso de herramientas

​Gestionar tokens con pensamiento extendido

​Encriptación de pensamiento

​Redacción de pensamiento

​Diferencias en el pensamiento entre versiones de modelos

​Precios

​Mejores prácticas y consideraciones para el pensamiento extendido

​Trabajar con presupuestos de pensamiento

​Consideraciones de rendimiento

​Compatibilidad de características

​Pautas de uso

​Próximos pasos

Pruebe el libro de cocina de pensamiento extendido

Consejos de prompting de pensamiento extendido

Modelos compatibles

Cómo funciona el pensamiento extendido

Cómo usar el pensamiento extendido

Pensamiento resumido

Transmisión de pensamiento

Pensamiento extendido con uso de herramientas

Preservar bloques de pensamiento

Pensamiento intercalado

Pensamiento extendido con caché de prompts

Entender el comportamiento de caché de bloques de pensamiento

Tokens máximos y tamaño de ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido

La ventana de contexto con pensamiento extendido y uso de herramientas

Gestionar tokens con pensamiento extendido

Encriptación de pensamiento

Redacción de pensamiento

Diferencias en el pensamiento entre versiones de modelos

Precios

Mejores prácticas y consideraciones para el pensamiento extendido

Trabajar con presupuestos de pensamiento

Consideraciones de rendimiento

Compatibilidad de características

Pautas de uso

Próximos pasos