Uso de computadora (beta)

Claude 4 Opus y Sonnet, junto con Claude Sonnet 3.7 y Claude Sonnet 3.5 (nuevo), son capaces de interactuar con herramientas que pueden manipular un entorno de escritorio de computadora. Los modelos Claude 4 utilizan versiones actualizadas de herramientas optimizadas para la nueva arquitectura. Claude Sonnet 3.7 introduce herramientas adicionales y te permite habilitar el pensamiento, dándote más información sobre el proceso de razonamiento del modelo.

El uso de computadora es una función beta. Ten en cuenta que el uso de computadora presenta riesgos únicos que son distintos de las funciones de API estándar o interfaces de chat. Estos riesgos aumentan cuando se utiliza el uso de computadora para interactuar con internet. Para minimizar los riesgos, considera tomar precauciones como:

Utiliza una máquina virtual dedicada o un contenedor con privilegios mínimos para prevenir ataques directos al sistema o accidentes.
Evita dar al modelo acceso a datos sensibles, como información de inicio de sesión de cuentas, para prevenir el robo de información.
Limita el acceso a internet a una lista de dominios permitidos para reducir la exposición a contenido malicioso.
Pide a un humano que confirme decisiones que puedan resultar en consecuencias significativas en el mundo real, así como cualquier tarea que requiera consentimiento afirmativo, como aceptar cookies, ejecutar transacciones financieras o aceptar términos de servicio.

En algunas circunstancias, Claude seguirá comandos encontrados en el contenido incluso si entran en conflicto con las instrucciones del usuario. Por ejemplo, instrucciones para Claude en páginas web o contenidas en imágenes pueden anular instrucciones o hacer que Claude cometa errores. Sugerimos tomar precauciones para aislar a Claude de datos y acciones sensibles para evitar riesgos relacionados con la inyección de instrucciones.

Hemos entrenado al modelo para resistir estas inyecciones de instrucciones y hemos añadido una capa adicional de defensa. Si utilizas nuestras herramientas de uso de computadora, ejecutaremos automáticamente clasificadores en tus instrucciones para marcar posibles casos de inyecciones de instrucciones. Cuando estos clasificadores identifiquen posibles inyecciones de instrucciones en capturas de pantalla, dirigirán automáticamente al modelo para que solicite confirmación del usuario antes de proceder con la siguiente acción. Reconocemos que esta protección adicional no será ideal para todos los casos de uso (por ejemplo, casos de uso sin un humano en el proceso), así que si deseas optar por no utilizarla y desactivarla, por favor contáctanos.

Seguimos sugiriendo tomar precauciones para aislar a Claude de datos y acciones sensibles para evitar riesgos relacionados con la inyección de instrucciones.

Finalmente, por favor informa a los usuarios finales de los riesgos relevantes y obtén su consentimiento antes de habilitar el uso de computadora en tus propios productos.

Implementación de referencia para uso de computadora

Comienza rápidamente con nuestra implementación de referencia para uso de computadora que incluye una interfaz web, contenedor Docker, implementaciones de herramientas de ejemplo y un bucle de agente.

Nota: La implementación ha sido actualizada para incluir nuevas herramientas tanto para Claude 4 como para Claude Sonnet 3.7. Asegúrate de obtener la última versión del repositorio para acceder a estas nuevas funciones.

Por favor, utiliza este formulario para proporcionar comentarios sobre la calidad de las respuestas del modelo, la API en sí, o la calidad de la documentación - ¡estamos ansiosos por escuchar tus opiniones!

Aquí hay un ejemplo de cómo proporcionar herramientas de uso de computadora a Claude utilizando la API de Messages:

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Cómo funciona el uso de computadora

1. Proporciona a Claude herramientas de uso de computadora y una instrucción del usuario

Añade herramientas de uso de computadora definidas por Anthropic a tu solicitud de API.
Incluye una instrucción del usuario que podría requerir estas herramientas, por ejemplo, “Guarda una imagen de un gato en mi escritorio.”

2. Claude decide usar una herramienta

Claude carga las definiciones almacenadas de herramientas de uso de computadora y evalúa si alguna herramienta puede ayudar con la consulta del usuario.
Si es así, Claude construye una solicitud de uso de herramienta con el formato adecuado.
La respuesta de la API tiene un stop_reason de tool_use, señalando la intención de Claude.

3. Extrae la entrada de la herramienta, evalúa la herramienta en una computadora y devuelve los resultados

En tu lado, extrae el nombre de la herramienta y la entrada de la solicitud de Claude.
Usa la herramienta en un contenedor o Máquina Virtual.
Continúa la conversación con un nuevo mensaje de user que contiene un bloque de contenido tool_result.

4. Claude continúa llamando a herramientas de uso de computadora hasta que haya completado la tarea

Claude analiza los resultados de la herramienta para determinar si se necesita más uso de herramientas o si la tarea se ha completado.
Si Claude decide que necesita otra herramienta, responde con otro stop_reason de tool_use y deberías volver al paso 3.
De lo contrario, elabora una respuesta de texto para el usuario.

Nos referimos a la repetición de los pasos 3 y 4 sin entrada del usuario como el “bucle del agente” - es decir, Claude respondiendo con una solicitud de uso de herramienta y tu aplicación respondiendo a Claude con los resultados de evaluar esa solicitud.

El entorno de computación

El uso de computadora requiere un entorno de computación aislado donde Claude pueda interactuar de manera segura con aplicaciones y la web. Este entorno incluye:

Pantalla virtual: Un servidor de pantalla X11 virtual (usando Xvfb) que renderiza la interfaz de escritorio que Claude verá a través de capturas de pantalla y controlará con acciones de ratón/teclado.
Entorno de escritorio: Una interfaz de usuario ligera con gestor de ventanas (Mutter) y panel (Tint2) ejecutándose en Linux, que proporciona una interfaz gráfica consistente para que Claude interactúe.
Aplicaciones: Aplicaciones Linux preinstaladas como Firefox, LibreOffice, editores de texto y gestores de archivos que Claude puede usar para completar tareas.
Implementaciones de herramientas: Código de integración que traduce las solicitudes de herramientas abstractas de Claude (como “mover ratón” o “tomar captura de pantalla”) en operaciones reales en el entorno virtual.
Bucle de agente: Un programa que maneja la comunicación entre Claude y el entorno, enviando las acciones de Claude al entorno y devolviendo los resultados (capturas de pantalla, salidas de comandos) a Claude.

Cuando usas el uso de computadora, Claude no se conecta directamente a este entorno. En su lugar, tu aplicación:

Recibe las solicitudes de uso de herramientas de Claude
Las traduce en acciones en tu entorno de computación
Captura los resultados (capturas de pantalla, salidas de comandos, etc.)
Devuelve estos resultados a Claude

Para seguridad y aislamiento, la implementación de referencia ejecuta todo esto dentro de un contenedor Docker con los mapeos de puertos apropiados para ver e interactuar con el entorno.

Cómo implementar el uso de computadora

Comienza con nuestra implementación de referencia

Hemos construido una implementación de referencia que incluye todo lo que necesitas para comenzar rápidamente con el uso de computadora:

Un entorno en contenedor adecuado para el uso de computadora con Claude
Implementaciones de las herramientas de uso de computadora
Un bucle de agente que interactúa con la API de Anthropic y ejecuta las herramientas de uso de computadora
Una interfaz web para interactuar con el contenedor, el bucle de agente y las herramientas.

Entendiendo el bucle multi-agente

El núcleo del uso de computadora es el “bucle de agente” - un ciclo donde Claude solicita acciones de herramientas, tu aplicación las ejecuta y devuelve resultados a Claude. Aquí hay un ejemplo simplificado:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Añadir límite de iteraciones para prevenir bucles infinitos
):
    """
    Un bucle de agente simple para interacciones de uso de computadora de Claude.

    Esta función maneja el ida y vuelta entre:
    1. Enviar mensajes de usuario a Claude
    2. Claude solicitando usar herramientas
    3. Tu aplicación ejecutando esas herramientas
    4. Enviando resultados de herramientas de vuelta a Claude
    """
    # Configurar herramientas y parámetros de API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Configurar herramientas - deberías tenerlas ya inicializadas en otro lugar
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Bucle principal del agente (con límite de iteraciones para prevenir costos de API descontrolados)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Configurar parámetro de pensamiento opcional (para Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Llamar a la API de Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Añadir la respuesta de Claude al historial de conversación
        response_content = response.content
        messages.append({"role":  "assistant", "content": response_content})

        # Comprobar si Claude usó alguna herramienta
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # En una aplicación real, ejecutarías la herramienta aquí
                # Por ejemplo: result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Formatear el resultado para Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Si no se usaron herramientas, Claude ha terminado - devolver los mensajes finales
        if not tool_results:
            return messages

        # Añadir resultados de herramientas a los mensajes para la siguiente iteración con Claude
        messages.append({"role": "user", "content": tool_results})

El bucle continúa hasta que Claude responde sin solicitar ninguna herramienta (completando la tarea) o se alcanza el límite máximo de iteraciones. Esta salvaguarda previene posibles bucles infinitos que podrían resultar en costos de API inesperados.

Para cada versión de las herramientas, debes usar la bandera beta correspondiente en tu solicitud de API:

Bandera beta de Claude 4

Bandera beta de Claude Sonnet 3.7

Cuando uses herramientas con 20250124 en su tipo (herramientas de Claude Sonnet 3.7), incluye esta bandera beta:

"betas": ["computer-use-2025-01-24"]

Nota: Las herramientas Bash (bash_20250124) y editor de texto (text_editor_20250124) están generalmente disponibles para Claude Sonnet 3.5 (nuevo) también y pueden usarse sin el encabezado beta de uso de computadora.

Bandera beta de Claude Sonnet 3.5 (nuevo)

Recomendamos probar la implementación de referencia antes de leer el resto de esta documentación.

Optimiza el rendimiento del modelo con instrucciones

Aquí hay algunos consejos sobre cómo obtener las mejores salidas de calidad:

Especifica tareas simples y bien definidas y proporciona instrucciones explícitas para cada paso.
Claude a veces asume los resultados de sus acciones sin verificarlos explícitamente. Para evitar esto, puedes instruir a Claude con Después de cada paso, toma una captura de pantalla y evalúa cuidadosamente si has logrado el resultado correcto. Muestra explícitamente tu razonamiento: "He evaluado el paso X..." Si no es correcto, inténtalo de nuevo. Solo cuando confirmes que un paso se ejecutó correctamente deberías pasar al siguiente.
Algunos elementos de la interfaz de usuario (como menús desplegables y barras de desplazamiento) pueden ser difíciles de manipular para Claude usando movimientos del ratón. Si experimentas esto, intenta instruir al modelo para que use atajos de teclado.
Para tareas repetibles o interacciones de interfaz de usuario, incluye capturas de pantalla de ejemplo y llamadas a herramientas de resultados exitosos en tu instrucción.
Si necesitas que el modelo inicie sesión, proporciónale el nombre de usuario y la contraseña en tu instrucción dentro de etiquetas xml como <robot_credentials>. Usar el uso de computadora dentro de aplicaciones que requieren inicio de sesión aumenta el riesgo de resultados negativos como consecuencia de la inyección de instrucciones. Por favor, revisa nuestra guía sobre mitigación de inyecciones de instrucciones antes de proporcionar al modelo credenciales de inicio de sesión.

Si encuentras repetidamente un conjunto claro de problemas o sabes de antemano las tareas que Claude necesitará completar, usa el mensaje del sistema para proporcionar a Claude consejos explícitos o instrucciones sobre cómo realizar las tareas con éxito.

Mensajes del sistema

Cuando se solicita una de las herramientas definidas por Anthropic a través de la API de Anthropic, se genera un mensaje del sistema específico para el uso de computadora. Es similar al mensaje del sistema de uso de herramientas pero comienza con:

Tienes acceso a un conjunto de funciones que puedes usar para responder a la pregunta del usuario. Esto incluye acceso a un entorno de computación aislado. Actualmente NO tienes la capacidad de inspeccionar archivos o interactuar con recursos externos, excepto invocando las funciones a continuación.

Al igual que con el uso regular de herramientas, el campo system_prompt proporcionado por el usuario sigue siendo respetado y utilizado en la construcción del mensaje del sistema combinado.

Comprende las herramientas definidas por Anthropic

Como beta, estas definiciones de herramientas están sujetas a cambios.

Hemos proporcionado un conjunto de herramientas que permiten a Claude usar computadoras de manera efectiva. Al especificar una herramienta definida por Anthropic, los campos description y tool_schema no son necesarios ni permitidos.

Las herramientas definidas por Anthropic son ejecutadas por el usuario

Las herramientas definidas por Anthropic son definidas por Anthropic, pero tú debes evaluar explícitamente los resultados de la herramienta y devolver los tool_results a Claude. Como con cualquier herramienta, el modelo no ejecuta automáticamente la herramienta.

Proporcionamos un conjunto de herramientas definidas por Anthropic, cada una con versiones optimizadas para Claude 4, Claude Sonnet 3.7 y Claude Sonnet 3.5:

Herramientas de Claude 4

Herramientas de Claude Sonnet 3.7

Herramientas de Claude Sonnet 3.5 (nuevo)

El campo type identifica la herramienta y sus parámetros para fines de validación, el campo name es el nombre de la herramienta expuesto al modelo.

Si quieres instruir al modelo para que use una de estas herramientas, puedes referirte explícitamente a la herramienta por el campo name. El campo name debe ser único dentro de la lista de herramientas; no puedes definir una herramienta con el mismo nombre que una herramienta definida por Anthropic en la misma llamada a la API.

No recomendamos definir herramientas con los nombres de herramientas definidas por Anthropic. Aunque todavía puedes redefinir herramientas con estos nombres (siempre que el nombre de la herramienta sea único en tu bloque tools), hacerlo puede resultar en un rendimiento degradado del modelo.

Herramienta de computadora

No recomendamos enviar capturas de pantalla en resoluciones superiores a XGA/WXGA para evitar problemas relacionados con el redimensionamiento de imágenes. Confiar en el comportamiento de redimensionamiento de imágenes en la API resultará en una menor precisión del modelo y un rendimiento más lento que implementar directamente el escalado tú mismo.

El repositorio de referencia demuestra cómo escalar desde resoluciones más altas a una resolución sugerida.

Tipos

computer_20250124 - Herramienta de computadora mejorada con funciones avanzadas para Claude 4
computer_20250124 - Herramienta de computadora mejorada con acciones adicionales disponibles en Claude Sonnet 3.7
computer_20241022 - Herramienta de computadora original usada con Claude Sonnet 3.5 (nuevo)

Parámetros

display_width_px: Requerido El ancho de la pantalla controlada por el modelo en píxeles.
display_height_px: Requerido La altura de la pantalla controlada por el modelo en píxeles.
display_number: Opcional El número de pantalla a controlar (solo relevante para entornos X11). Si se especifica, se proporcionará a la herramienta un número de pantalla en la definición de la herramienta.

Descripción de la herramienta

Estamos proporcionando nuestra descripción de herramienta solo como referencia. No deberías especificar esto en tu llamada a herramienta definida por Anthropic.

Usa un ratón y teclado para interactuar con una computadora, y toma capturas de pantalla.
* Esta es una interfaz para una GUI de escritorio. No tienes acceso a una terminal o menú de aplicaciones. Debes hacer clic en iconos de escritorio para iniciar aplicaciones.
* Algunas aplicaciones pueden tardar en iniciarse o procesar acciones, por lo que es posible que debas esperar y tomar capturas de pantalla sucesivas para ver los resultados de tus acciones. Por ejemplo, si haces clic en Firefox y no se abre una ventana, intenta tomar otra captura de pantalla.
* La resolución de la pantalla es {{ display_width_px }}x{{ display_height_px }}.
* El número de pantalla es {{ display_number }}
* Siempre que tengas la intención de mover el cursor para hacer clic en un elemento como un icono, debes consultar una captura de pantalla para determinar las coordenadas del elemento antes de mover el cursor.
* Si intentaste hacer clic en un programa o enlace pero no se cargó, incluso después de esperar, intenta ajustar la posición de tu cursor para que la punta del cursor caiga visualmente sobre el elemento en el que quieres hacer clic.
* Asegúrate de hacer clic en cualquier botón, enlace, icono, etc. con la punta del cursor en el centro del elemento. No hagas clic en cajas en sus bordes a menos que se te pida.

Esquema de entrada de la herramienta

Estamos proporcionando nuestro esquema de entrada solo como referencia. Para la herramienta mejorada computer_20250124 disponible con Claude Sonnet 3.7. Aquí está el esquema de entrada completo:

{
    "properties": {
        "action": {
            "description": "La acción a realizar. Las acciones disponibles son:\n"
            "* `key`: Presionar una tecla o combinación de teclas en el teclado.\n"
            "  - Esto admite la sintaxis `key` de xdotool.\n"
            '  - Ejemplos: "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (para la tecla 0 del teclado numérico).\n'
            "* `hold_key`: Mantener presionada una tecla o múltiples teclas durante un tiempo específico (en segundos). Admite la misma sintaxis que `key`.\n"
            "* `type`: Escribir una cadena de texto en el teclado.\n"
            "* `cursor_position`: Obtener la coordenada actual de píxeles (x, y) del cursor en la pantalla.\n"
            "* `mouse_move`: Mover el cursor a una coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `left_mouse_down`: Presionar el botón izquierdo del ratón.\n"
            "* `left_mouse_up`: Soltar el botón izquierdo del ratón.\n"
            "* `left_click`: Hacer clic con el botón izquierdo del ratón en la coordenada de píxeles específica (x, y) en la pantalla. También puedes incluir una combinación de teclas para mantener presionada mientras haces clic usando el parámetro `text`.\n"
            "* `left_click_drag`: Hacer clic y arrastrar el cursor desde `start_coordinate` hasta una coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `right_click`: Hacer clic con el botón derecho del ratón en la coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `middle_click`: Hacer clic con el botón central del ratón en la coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `double_click`: Hacer doble clic con el botón izquierdo del ratón en la coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `triple_click`: Hacer triple clic con el botón izquierdo del ratón en la coordenada de píxeles específica (x, y) en la pantalla.\n"
            "* `scroll`: Desplazar la pantalla en una dirección específica por una cantidad específica de clics de la rueda de desplazamiento, en la coordenada de píxeles específica (x, y). NO uses PageUp/PageDown para desplazarte.\n"
            "* `wait`: Esperar durante un tiempo específico (en segundos).\n"
            "* `screenshot`: Tomar una captura de pantalla de la pantalla.",
            "enum": [
                "key",
                "hold_key",
                "type",
                "cursor_position",
                "mouse_move",
                "left_mouse_down",
                "left_mouse_up",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "triple_click",
                "scroll",
                "wait",
                "screenshot",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y): Las coordenadas x (píxeles desde el borde izquierdo) y y (píxeles desde el borde superior) para mover el ratón. Requerido solo por `action=mouse_move` y `action=left_click_drag`.",
            "type": "array",
        },
        "duration": {
            "description": "La duración para mantener presionada la tecla. Requerido solo por `action=hold_key` y `action=wait`.",
            "type": "integer",
        },
        "scroll_amount": {
            "description": "El número de 'clics' para desplazar. Requerido solo por `action=scroll`.",
            "type": "integer",
        },
        "scroll_direction": {
            "description": "La dirección para desplazar la pantalla. Requerido solo por `action=scroll`.",
            "enum": ["up", "down", "left", "right"],
            "type": "string",
        },
        "start_coordinate": {
            "description": "(x, y): Las coordenadas x (píxeles desde el borde izquierdo) y y (píxeles desde el borde superior) para comenzar el arrastre. Requerido solo por `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Requerido solo por `action=type`, `action=key`, y `action=hold_key`. También puede ser usado por acciones de clic o desplazamiento para mantener presionadas teclas mientras se hace clic o se desplaza.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Para la herramienta original computer_20241022 usada con Claude Sonnet 3.5 (nuevo):

{
    "properties": {
        "action": {
            "description": """La acción a realizar. Las acciones disponibles son:
                * `key`: Presionar una tecla o combinación de teclas en el teclado.
                  - Esto admite la sintaxis `key` de xdotool.
                  - Ejemplos: "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (para la tecla 0 del teclado numérico).
                * `type`: Escribir una cadena de texto en el teclado.
                * `cursor_position`: Obtener la coordenada actual de píxeles (x, y) del cursor en la pantalla.
                * `mouse_move`: Mover el cursor a una coordenada de píxeles específica (x, y) en la pantalla.
                * `left_click`: Hacer clic con el botón izquierdo del ratón.
                * `left_click_drag`: Hacer clic y arrastrar el cursor a una coordenada de píxeles específica (x, y) en la pantalla.
                * `right_click`: Hacer clic con el botón derecho del ratón.
                * `middle_click`: Hacer clic con el botón central del ratón.
                * `double_click`: Hacer doble clic con el botón izquierdo del ratón.
                * `screenshot`: Tomar una captura de pantalla de la pantalla.""",
            "enum": [
                "key",
                "type",
                "mouse_move",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "screenshot",
                "cursor_position",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y): Las coordenadas x (píxeles desde el borde izquierdo) y y (píxeles desde el borde superior) para mover el ratón. Requerido solo por `action=mouse_move` y `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Requerido solo por `action=type` y `action=key`.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Herramienta de editor de texto

Tipos

text_editor_20250429 - Editor de texto actualizado para Claude 4 sin el comando undo_edit
text_editor_20250124 - Mismas capacidades que la versión 20241022, para usar con Claude Sonnet 3.7
text_editor_20241022 - Herramienta de editor de texto original usada con Claude Sonnet 3.5 (nuevo)

Descripción de la herramienta

Estamos proporcionando nuestra descripción de herramienta solo como referencia. No deberías especificar esto en tu llamada a herramienta definida por Anthropic.

Herramienta de edición personalizada para ver, crear y editar archivos
* El estado es persistente a través de llamadas de comandos y discusiones con el usuario
* Si `path` es un archivo, `view` muestra el resultado de aplicar `cat -n`. Si `path` es un directorio, `view` lista archivos y directorios no ocultos hasta 2 niveles de profundidad
* El comando `create` no se puede usar si el `path` especificado ya existe como archivo
* Si un `command` genera una salida larga, será truncada y marcada con `<response clipped>`
* El comando `undo_edit` revertirá la última edición realizada al archivo en `path` (no disponible en text_editor_20250429)

Notas para usar el comando `str_replace`:
* El parámetro `old_str` debe coincidir EXACTAMENTE con una o más líneas consecutivas del archivo original. ¡Ten cuidado con los espacios en blanco!
* Si el parámetro `old_str` no es único en el archivo, el reemplazo no se realizará. Asegúrate de incluir suficiente contexto en `old_str` para hacerlo único
* El parámetro `new_str` debe contener las líneas editadas que deben reemplazar a `old_str`

Esquema de entrada de la herramienta

Estamos proporcionando nuestro esquema de entrada solo como referencia. No deberías especificar esto en tu llamada a herramienta definida por Anthropic.

{
    "properties": {
        "command": {
            "description": "Los comandos a ejecutar. Las opciones permitidas son: `view`, `create`, `str_replace`, `insert`, `undo_edit`.",
            "enum": ["view", "create", "str_replace", "insert", "undo_edit"],
            "type": "string",
        },
        "file_text": {
            "description": "Parámetro requerido del comando `create`, con el contenido del archivo a crear.",
            "type": "string",
        },
        "insert_line": {
            "description": "Parámetro requerido del comando `insert`. El `new_str` se insertará DESPUÉS de la línea `insert_line` de `path`.",
            "type": "integer",
        },
        "new_str": {
            "description": "Parámetro opcional del comando `str_replace` que contiene la nueva cadena (si no se proporciona, no se añadirá ninguna cadena). Parámetro requerido del comando `insert` que contiene la cadena a insertar.",
            "type": "string",
        },
        "old_str": {
            "description": "Parámetro requerido del comando `str_replace` que contiene la cadena en `path` a reemplazar.",
            "type": "string",
        },
        "path": {
            "description": "Ruta absoluta al archivo o directorio, por ejemplo, `/repo/file.py` o `/repo`.",
            "type": "string",
        },
        "view_range": {
            "description": "Parámetro opcional del comando `view` cuando `path` apunta a un archivo. Si no se proporciona, se muestra el archivo completo. Si se proporciona, el archivo se mostrará en el rango de números de línea indicado, por ejemplo, [11, 12] mostrará las líneas 11 y 12. Indexación en 1 para comenzar. Establecer `[start_line, -1]` muestra todas las líneas desde `start_line` hasta el final del archivo.",
            "items": {"type": "integer"},
            "type": "array",
        },
    },
    "required": ["command", "path"],
    "type": "object",
}

Herramienta Bash

Tipos

bash_20250124 - Herramienta bash mejorada para Claude 4 con capacidades mejoradas
bash_20250124 - Mismas capacidades que la versión 20241022, para usar con Claude Sonnet 3.7
bash_20241022 - Herramienta bash original usada con Claude Sonnet 3.5 (nuevo)

Descripción de la herramienta

Estamos proporcionando nuestra descripción de herramienta solo como referencia. No deberías especificar esto en tu llamada a herramienta definida por Anthropic.

Ejecutar comandos en un shell bash
* Al invocar esta herramienta, el contenido del parámetro "command" NO necesita ser escapado con XML.
* Tienes acceso a un espejo de paquetes comunes de linux y python a través de apt y pip.
* El estado es persistente a través de llamadas de comandos y discusiones con el usuario.
* Para inspeccionar un rango de líneas particular de un archivo, por ejemplo, líneas 10-25, intenta 'sed -n 10,25p /ruta/al/archivo'.
* Por favor, evita comandos que puedan producir una cantidad muy grande de salida.
* Por favor, ejecuta comandos de larga duración en segundo plano, por ejemplo, 'sleep 10 &' o inicia un servidor en segundo plano.

Esquema de entrada de la herramienta

Estamos proporcionando nuestro esquema de entrada solo como referencia. No deberías especificar esto en tu llamada a herramienta definida por Anthropic.

{
    "properties": {
        "command": {
            "description": "El comando bash a ejecutar. Requerido a menos que la herramienta esté siendo reiniciada.",
            "type": "string",
        },
        "restart": {
            "description": "Especificar true reiniciará esta herramienta. De lo contrario, deja esto sin especificar.",
            "type": "boolean",
        },
    }
}

Habilita la capacidad de pensamiento en Claude 4 y Claude Sonnet 3.7

Claude Sonnet 3.7 introdujo una nueva capacidad de “pensamiento” que te permite ver el proceso de razonamiento del modelo mientras trabaja en tareas complejas. Esta función te ayuda a entender cómo Claude está abordando un problema y puede ser particularmente valiosa para depuración o propósitos educativos.

Para habilitar el pensamiento, añade un parámetro thinking a tu solicitud de API:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

El parámetro budget_tokens especifica cuántos tokens puede usar Claude para pensar. Esto se resta de tu presupuesto general de max_tokens.

Cuando el pensamiento está habilitado, Claude devolverá su proceso de razonamiento como parte de la respuesta, lo que puede ayudarte a:

Entender el proceso de toma de decisiones del modelo
Identificar posibles problemas o conceptos erróneos
Aprender del enfoque de Claude para resolver problemas
Obtener más visibilidad en operaciones complejas de múltiples pasos

Aquí hay un ejemplo de cómo podría verse la salida de pensamiento:

[Thinking]
Necesito guardar una imagen de un gato en el escritorio. Vamos a desglosar esto en pasos:

1. Primero, tomaré una captura de pantalla para ver qué hay en el escritorio
2. Luego buscaré un navegador web para buscar imágenes de gatos
3. Después de encontrar una imagen adecuada, necesitaré guardarla en el escritorio

Empecemos tomando una captura de pantalla para ver qué está disponible...

Combina el uso de computadora con otras herramientas

Puedes combinar el uso regular de herramientas con las herramientas definidas por Anthropic para el uso de computadora.

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Construye un entorno personalizado de uso de computadora

La implementación de referencia está destinada a ayudarte a comenzar con el uso de computadora. Incluye todos los componentes necesarios para que Claude use una computadora. Sin embargo, puedes construir tu propio entorno para el uso de computadora según tus necesidades. Necesitarás:

Un entorno virtualizado o en contenedor adecuado para el uso de computadora con Claude
Una implementación de al menos una de las herramientas de uso de computadora definidas por Anthropic
Un bucle de agente que interactúe con la API de Anthropic y ejecute los resultados de tool_use usando tus implementaciones de herramientas
Una API o interfaz de usuario que permita la entrada del usuario para iniciar el bucle de agente

Comprende las limitaciones del uso de computadora

La funcionalidad de uso de computadora está en beta. Aunque las capacidades de Claude son de vanguardia, los desarrolladores deben ser conscientes de sus limitaciones:

Latencia: la latencia actual del uso de computadora para interacciones humano-IA puede ser demasiado lenta en comparación con las acciones de computadora dirigidas por humanos regulares. Recomendamos centrarse en casos de uso donde la velocidad no sea crítica (por ejemplo, recopilación de información en segundo plano, pruebas automatizadas de software) en entornos de confianza.
Precisión y fiabilidad de la visión por computadora: Claude puede cometer errores o alucinar al generar coordenadas específicas mientras genera acciones. Claude Sonnet 3.7 introduce la capacidad de pensamiento que puede ayudarte a entender el razonamiento del modelo e identificar posibles problemas.
Precisión y fiabilidad en la selección de herramientas: Claude puede cometer errores o alucinar al seleccionar herramientas mientras genera acciones o tomar acciones inesperadas para resolver problemas. Además, la fiabilidad puede ser menor al interactuar con aplicaciones especializadas o múltiples aplicaciones a la vez. Recomendamos que los usuarios instruyan al modelo cuidadosamente cuando soliciten tareas complejas.
Fiabilidad del desplazamiento: Aunque Claude Sonnet 3.5 (nuevo) tenía limitaciones con el desplazamiento, Claude Sonnet 3.7 introduce acciones de desplazamiento dedicadas con control de dirección que mejora la fiabilidad. El modelo ahora puede desplazarse explícitamente en cualquier dirección (arriba/abajo/izquierda/derecha) por una cantidad específica.
Interacción con hojas de cálculo: Los clics del ratón para la interacción con hojas de cálculo han mejorado en Claude Sonnet 3.7 con la adición de acciones de control del ratón más precisas como left_mouse_down, left_mouse_up, y nuevo soporte para teclas modificadoras. La selección de celdas puede ser más fiable usando estos controles detallados y combinando teclas modificadoras con clics.
Creación de cuentas y generación de contenido en plataformas sociales y de comunicación: Aunque Claude visitará sitios web, estamos limitando su capacidad para crear cuentas o generar y compartir contenido o de otra manera participar en la suplantación humana en sitios web y plataformas de redes sociales. Podemos actualizar esta capacidad en el futuro.
Vulnerabilidades: Vulnerabilidades como jailbreaking o inyección de instrucciones pueden persistir en sistemas de IA de frontera, incluida la API beta de uso de computadora. En algunas circunstancias, Claude seguirá comandos encontrados en el contenido, a veces incluso en conflicto con las instrucciones del usuario. Por ejemplo, instrucciones para Claude en páginas web o contenidas en imágenes pueden anular instrucciones o hacer que Claude cometa errores. Recomendamos: a. Limitar el uso de computadora a entornos de confianza como máquinas virtuales o contenedores con privilegios mínimos b. Evitar dar acceso de uso de computadora a cuentas o datos sensibles sin supervisión estricta c. Informar a los usuarios finales de los riesgos relevantes y obtener su consentimiento antes de habilitar o solicitar permisos necesarios para las funciones de uso de computadora en tus aplicaciones
Acciones inapropiadas o ilegales: Según los términos de servicio de Anthropic, no debes emplear el uso de computadora para violar ninguna ley o nuestra Política de Uso Aceptable.

Siempre revisa y verifica cuidadosamente las acciones y registros de uso de computadora de Claude. No uses Claude para tareas que requieran precisión perfecta o información sensible del usuario sin supervisión humana.

Precios

Consulta la documentación de precios de uso de herramientas para una explicación detallada de cómo se cobran las solicitudes de API de Uso de Herramientas de Claude.

Como un subconjunto de solicitudes de uso de herramientas, las solicitudes de uso de computadora tienen el mismo precio que cualquier otra solicitud de API de Claude.

También incluimos automáticamente un mensaje del sistema especial para el modelo, que habilita el uso de computadora.

Modelo	Elección de herramienta	Recuento de tokens del mensaje del sistema
Claude 4 Opus & Sonnet	`auto` `any`, `tool`	466 tokens 499 tokens
Claude Sonnet 3.7	`auto` `any`, `tool`	466 tokens 499 tokens
Claude Sonnet 3.5 (nuevo)	`auto` `any`, `tool`	466 tokens 499 tokens

Además de los tokens base, se necesitan los siguientes tokens de entrada adicionales para las herramientas definidas por Anthropic:

Herramienta	Tokens de entrada adicionales
`computer_20250124` (Claude 4)	735 tokens
`computer_20250124` (Claude Sonnet 3.7)	735 tokens
`computer_20241022` (Claude Sonnet 3.5)	683 tokens
`text_editor_20250429` (Claude 4)	700 tokens
`text_editor_20250124` (Claude Sonnet 3.7)	700 tokens
`text_editor_20241022` (Claude Sonnet 3.5)	700 tokens
`bash_20250124` (Claude 4)	245 tokens
`bash_20250124` (Claude Sonnet 3.7)	245 tokens
`bash_20241022` (Claude Sonnet 3.5)	245 tokens

Si habilitas el pensamiento con Claude 4 o Claude Sonnet 3.7, los tokens utilizados para el pensamiento se contarán contra tu presupuesto de max_tokens basado en los budget_tokens que especifiques en el parámetro de pensamiento.

Release Notes

Implementación de referencia para uso de computadora

​Cómo funciona el uso de computadora

​El entorno de computación

​Cómo implementar el uso de computadora

​Comienza con nuestra implementación de referencia

​Entendiendo el bucle multi-agente

​Optimiza el rendimiento del modelo con instrucciones

​Mensajes del sistema

​Comprende las herramientas definidas por Anthropic

​Habilita la capacidad de pensamiento en Claude 4 y Claude Sonnet 3.7

​Combina el uso de computadora con otras herramientas

​Construye un entorno personalizado de uso de computadora

​Comprende las limitaciones del uso de computadora

​Precios

Cómo funciona el uso de computadora

El entorno de computación

Cómo implementar el uso de computadora

Comienza con nuestra implementación de referencia

Entendiendo el bucle multi-agente

Optimiza el rendimiento del modelo con instrucciones

Mensajes del sistema

Comprende las herramientas definidas por Anthropic

Habilita la capacidad de pensamiento en Claude 4 y Claude Sonnet 3.7

Combina el uso de computadora con otras herramientas

Construye un entorno personalizado de uso de computadora

Comprende las limitaciones del uso de computadora

Precios