Utilisation d'ordinateur (bêta)

Claude 4 Opus et Sonnet, ainsi que Claude Sonnet 3.7 et Claude Sonnet 3.5 (nouveau), sont capables d’interagir avec des outils qui peuvent manipuler un environnement de bureau informatique. Les modèles Claude 4 utilisent des versions d’outils mises à jour et optimisées pour la nouvelle architecture. Claude Sonnet 3.7 introduit des outils supplémentaires et vous permet d’activer la réflexion, vous donnant plus d’informations sur le processus de raisonnement du modèle.

L’utilisation d’ordinateur est une fonctionnalité bêta. Veuillez noter que l’utilisation d’ordinateur présente des risques uniques qui sont distincts des fonctionnalités API standard ou des interfaces de chat. Ces risques sont accrus lors de l’utilisation d’ordinateur pour interagir avec Internet. Pour minimiser les risques, envisagez de prendre des précautions telles que :

Utiliser une machine virtuelle dédiée ou un conteneur avec des privilèges minimaux pour prévenir les attaques directes du système ou les accidents.
Éviter de donner au modèle accès à des données sensibles, comme les informations de connexion à un compte, pour prévenir le vol d’informations.
Limiter l’accès à Internet à une liste blanche de domaines pour réduire l’exposition à du contenu malveillant.
Demander à un humain de confirmer les décisions qui pourraient entraîner des conséquences significatives dans le monde réel ainsi que toutes les tâches nécessitant un consentement affirmatif, comme l’acceptation de cookies, l’exécution de transactions financières ou l’acceptation de conditions d’utilisation.

Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu même si cela entre en conflit avec les instructions de l’utilisateur. Par exemple, des instructions pour Claude sur des pages web ou contenues dans des images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Nous suggérons de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.

Nous avons entraîné le modèle à résister à ces injections de prompts et avons ajouté une couche de défense supplémentaire. Si vous utilisez nos outils d’utilisation d’ordinateur, nous exécuterons automatiquement des classificateurs sur vos prompts pour signaler les cas potentiels d’injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d’écran, ils orienteront automatiquement le modèle pour demander une confirmation de l’utilisateur avant de procéder à l’action suivante. Nous reconnaissons que cette protection supplémentaire ne sera pas idéale pour tous les cas d’utilisation (par exemple, les cas d’utilisation sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, veuillez nous contacter.

Nous suggérons toujours de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.

Enfin, veuillez informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer l’utilisation d’ordinateur dans vos propres produits.

Implémentation de référence pour l'utilisation d'ordinateur

Démarrez rapidement avec notre implémentation de référence pour l’utilisation d’ordinateur qui comprend une interface web, un conteneur Docker, des implémentations d’outils d’exemple et une boucle d’agent.

Remarque : L’implémentation a été mise à jour pour inclure de nouveaux outils pour Claude 4 et Claude Sonnet 3.7. Assurez-vous de récupérer la dernière version du dépôt pour accéder à ces nouvelles fonctionnalités.

Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation - nous avons hâte de vous entendre !

Voici un exemple de la façon de fournir des outils d’utilisation d’ordinateur à Claude en utilisant l’API Messages :

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Comment fonctionne l’utilisation d’ordinateur

1. Fournir à Claude des outils d'utilisation d'ordinateur et un prompt utilisateur

Ajoutez des outils d’utilisation d’ordinateur définis par Anthropic à votre requête API.
Incluez un prompt utilisateur qui pourrait nécessiter ces outils, par exemple, “Enregistre une image de chat sur mon bureau.”

2. Claude décide d'utiliser un outil

Claude charge les définitions d’outils d’utilisation d’ordinateur stockées et évalue si des outils peuvent aider à répondre à la requête de l’utilisateur.
Si oui, Claude construit une requête d’utilisation d’outil correctement formatée.
La réponse de l’API a un stop_reason de tool_use, signalant l’intention de Claude.

3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et renvoyer les résultats

De votre côté, extrayez le nom de l’outil et l’entrée de la requête de Claude.
Utilisez l’outil sur un conteneur ou une machine virtuelle.
Continuez la conversation avec un nouveau message user contenant un bloc de contenu tool_result.

4. Claude continue d'appeler des outils d'utilisation d'ordinateur jusqu'à ce qu'il ait terminé la tâche

Claude analyse les résultats de l’outil pour déterminer si une utilisation supplémentaire d’outil est nécessaire ou si la tâche a été accomplie.
Si Claude décide qu’il a besoin d’un autre outil, il répond avec un autre stop_reason tool_use et vous devriez revenir à l’étape 3.
Sinon, il élabore une réponse textuelle pour l’utilisateur.

Nous appelons la répétition des étapes 3 et 4 sans entrée utilisateur la “boucle d’agent” - c’est-à-dire, Claude répondant avec une demande d’utilisation d’outil et votre application répondant à Claude avec les résultats de l’évaluation de cette demande.

L’environnement informatique

L’utilisation d’ordinateur nécessite un environnement informatique isolé où Claude peut interagir en toute sécurité avec des applications et le web. Cet environnement comprend :

Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra à travers des captures d’écran et contrôlera avec des actions de souris/clavier.
Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.
Applications : Applications Linux préinstallées comme Firefox, LibreOffice, éditeurs de texte et gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
Implémentations d’outils : Code d’intégration qui traduit les demandes d’outils abstraites de Claude (comme “déplacer la souris” ou “prendre une capture d’écran”) en opérations réelles dans l’environnement virtuel.
Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et renvoyant les résultats (captures d’écran, sorties de commandes) à Claude.

Lorsque vous utilisez l’utilisation d’ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :

Reçoit les demandes d’utilisation d’outils de Claude
Les traduit en actions dans votre environnement informatique
Capture les résultats (captures d’écran, sorties de commandes, etc.)
Renvoie ces résultats à Claude

Pour la sécurité et l’isolation, l’implémentation de référence exécute tout cela à l’intérieur d’un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l’environnement.

Comment implémenter l’utilisation d’ordinateur

Commencez avec notre implémentation de référence

Nous avons construit une implémentation de référence qui comprend tout ce dont vous avez besoin pour démarrer rapidement avec l’utilisation d’ordinateur :

Un environnement conteneurisé adapté à l’utilisation d’ordinateur avec Claude
Des implémentations des outils d’utilisation d’ordinateur
Une boucle d’agent qui interagit avec l’API Anthropic et exécute les outils d’utilisation d’ordinateur
Une interface web pour interagir avec le conteneur, la boucle d’agent et les outils.

Comprendre la boucle multi-agent

Le cœur de l’utilisation d’ordinateur est la “boucle d’agent” - un cycle où Claude demande des actions d’outils, votre application les exécute et renvoie les résultats à Claude. Voici un exemple simplifié :

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Ajouter une limite d'itérations pour éviter les boucles infinies
):
    """
    Une boucle d'agent simple pour les interactions d'utilisation d'ordinateur de Claude.

    Cette fonction gère les allers-retours entre :
    1. Envoyer des messages utilisateur à Claude
    2. Claude demandant à utiliser des outils
    3. Votre application exécutant ces outils
    4. Envoyer les résultats des outils à Claude
    """
    # Configurer les outils et les paramètres API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Configurer les outils - vous devriez déjà les avoir initialisés ailleurs
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Boucle d'agent principale (avec limite d'itérations pour éviter des coûts API incontrôlés)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Configurer le paramètre de réflexion optionnel (pour Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Appeler l'API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Ajouter la réponse de Claude à l'historique de conversation
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Vérifier si Claude a utilisé des outils
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # Dans une vraie application, vous exécuteriez l'outil ici
                # Par exemple : result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Formater le résultat pour Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Si aucun outil n'a été utilisé, Claude a terminé - renvoyer les messages finaux
        if not tool_results:
            return messages

        # Ajouter les résultats des outils aux messages pour la prochaine itération avec Claude
        messages.append({"role": "user", "content": tool_results})

La boucle continue jusqu’à ce que Claude réponde sans demander d’outils (tâche terminée) ou que la limite maximale d’itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts API inattendus.

Pour chaque version des outils, vous devez utiliser l’indicateur bêta correspondant dans votre requête API :

Indicateur bêta Claude 4

Indicateur bêta Claude Sonnet 3.7

Indicateur bêta Claude Sonnet 3.5 (nouveau)

Nous vous recommandons d’essayer l’implémentation de référence avant de lire le reste de cette documentation.

Optimiser les performances du modèle avec le prompting

Voici quelques conseils pour obtenir les meilleures sorties de qualité :

Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez inciter Claude avec Après chaque étape, prends une capture d'écran et évalue soigneusement si tu as obtenu le bon résultat. Montre explicitement ton raisonnement : "J'ai évalué l'étape X..." Si ce n'est pas correct, essaie à nouveau. Ce n'est que lorsque tu confirmes qu'une étape a été correctement exécutée que tu dois passer à la suivante.
Certains éléments d’interface utilisateur (comme les menus déroulants et les barres de défilement) peuvent être difficiles à manipuler pour Claude en utilisant des mouvements de souris. Si vous rencontrez ce problème, essayez d’inciter le modèle à utiliser des raccourcis clavier.
Pour les tâches répétables ou les interactions d’interface utilisateur, incluez des captures d’écran d’exemple et des appels d’outils de résultats réussis dans votre prompt.
Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre prompt à l’intérieur de balises xml comme <robot_credentials>. L’utilisation d’ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats suite à une injection de prompt. Veuillez consulter notre guide sur l’atténuation des injections de prompts avant de fournir au modèle des informations d’identification.

Si vous rencontrez à plusieurs reprises un ensemble clair de problèmes ou si vous connaissez à l’avance les tâches que Claude devra accomplir, utilisez le prompt système pour fournir à Claude des conseils ou des instructions explicites sur la façon d’accomplir les tâches avec succès.

Prompts système

Lorsqu’un des outils définis par Anthropic est demandé via l’API Anthropic, un prompt système spécifique à l’utilisation d’ordinateur est généré. Il est similaire au prompt système d’utilisation d’outil mais commence par :

Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique isolé. Vous n’avez PAS actuellement la capacité d’inspecter des fichiers ou d’interagir avec des ressources externes, sauf en invoquant les fonctions ci-dessous.

Comme avec l’utilisation régulière d’outils, le champ system_prompt fourni par l’utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.

Comprendre les outils définis par Anthropic

En tant que bêta, ces définitions d’outils sont susceptibles de changer.

Nous avons fourni un ensemble d’outils qui permettent à Claude d’utiliser efficacement des ordinateurs. Lors de la spécification d’un outil défini par Anthropic, les champs description et tool_schema ne sont pas nécessaires ou autorisés.

Les outils définis par Anthropic sont exécutés par l’utilisateur

Les outils définis par Anthropic sont définis par Anthropic, mais vous devez explicitement évaluer les résultats de l’outil et renvoyer les tool_results à Claude. Comme pour tout outil, le modèle n’exécute pas automatiquement l’outil.

Nous fournissons un ensemble d’outils définis par Anthropic, chaque outil ayant des versions optimisées pour Claude 4, Claude Sonnet 3.7 et Claude Sonnet 3.5 :

Outils Claude 4

Outils Claude Sonnet 3.7

Outils Claude Sonnet 3.5 (nouveau)

Le champ type identifie l’outil et ses paramètres à des fins de validation, le champ name est le nom de l’outil exposé au modèle.

Si vous souhaitez inciter le modèle à utiliser l’un de ces outils, vous pouvez explicitement faire référence à l’outil par le champ name. Le champ name doit être unique dans la liste d’outils ; vous ne pouvez pas définir un outil avec le même nom qu’un outil défini par Anthropic dans le même appel API.

Nous ne recommandons pas de définir des outils avec les noms d’outils définis par Anthropic. Bien que vous puissiez toujours redéfinir des outils avec ces noms (tant que le nom de l’outil est unique dans votre bloc tools), cela peut entraîner une dégradation des performances du modèle.

Outil ordinateur

Nous ne recommandons pas d’envoyer des captures d’écran à des résolutions supérieures à XGA/WXGA pour éviter les problèmes liés au redimensionnement d’image. S’appuyer sur le comportement de redimensionnement d’image dans l’API entraînera une précision de modèle inférieure et des performances plus lentes que l’implémentation directe de la mise à l’échelle vous-même.

Le dépôt de référence montre comment mettre à l’échelle des résolutions plus élevées vers une résolution suggérée.

Types

computer_20250124 - Outil informatique amélioré avec des fonctionnalités avancées pour Claude 4
computer_20250124 - Outil informatique amélioré avec des actions supplémentaires disponibles dans Claude Sonnet 3.7
computer_20241022 - Outil informatique original utilisé avec Claude Sonnet 3.5 (nouveau)

Paramètres

display_width_px : Obligatoire La largeur de l’affichage contrôlé par le modèle en pixels.
display_height_px : Obligatoire La hauteur de l’affichage contrôlé par le modèle en pixels.
display_number : Facultatif Le numéro d’affichage à contrôler (pertinent uniquement pour les environnements X11). Si spécifié, l’outil recevra un numéro d’affichage dans la définition de l’outil.

Description de l’outil

Nous fournissons notre description d’outil à titre de référence uniquement. Vous ne devriez pas spécifier cela dans votre appel d’outil défini par Anthropic.

Utilisez une souris et un clavier pour interagir avec un ordinateur, et prenez des captures d'écran.
* Il s'agit d'une interface vers une interface graphique de bureau. Vous n'avez pas accès à un terminal ou à un menu d'applications. Vous devez cliquer sur les icônes du bureau pour démarrer les applications.
* Certaines applications peuvent prendre du temps pour démarrer ou traiter des actions, vous devrez peut-être attendre et prendre des captures d'écran successives pour voir les résultats de vos actions. Par exemple, si vous cliquez sur Firefox et qu'une fenêtre ne s'ouvre pas, essayez de prendre une autre capture d'écran.
* La résolution de l'écran est de {{ display_width_px }}x{{ display_height_px }}.
* Le numéro d'affichage est {{ display_number }}
* Chaque fois que vous avez l'intention de déplacer le curseur pour cliquer sur un élément comme une icône, vous devriez consulter une capture d'écran pour déterminer les coordonnées de l'élément avant de déplacer le curseur.
* Si vous avez essayé de cliquer sur un programme ou un lien mais qu'il n'a pas réussi à se charger, même après avoir attendu, essayez d'ajuster la position de votre curseur pour que la pointe du curseur tombe visuellement sur l'élément sur lequel vous voulez cliquer.
* Assurez-vous de cliquer sur les boutons, liens, icônes, etc. avec la pointe du curseur au centre de l'élément. Ne cliquez pas sur les boîtes sur leurs bords à moins qu'on ne vous le demande.

Schéma d’entrée de l’outil

Nous fournissons notre schéma d’entrée à titre de référence uniquement. Pour l’outil amélioré computer_20250124 disponible avec Claude Sonnet 3.7. Voici le schéma d’entrée complet :

{
    "properties": {
        "action": {
            "description": "L'action à effectuer. Les actions disponibles sont :\n"
            "* `key` : Appuyer sur une touche ou une combinaison de touches sur le clavier.\n"
            "  - Cela prend en charge la syntaxe `key` de xdotool.\n"
            '  - Exemples : "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (pour la touche 0 du pavé numérique).\n'
            "* `hold_key` : Maintenir enfoncée une touche ou plusieurs touches pendant une durée spécifiée (en secondes). Prend en charge la même syntaxe que `key`.\n"
            "* `type` : Taper une chaîne de texte sur le clavier.\n"
            "* `cursor_position` : Obtenir la coordonnée actuelle (x, y) en pixels du curseur sur l'écran.\n"
            "* `mouse_move` : Déplacer le curseur vers une coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `left_mouse_down` : Appuyer sur le bouton gauche de la souris.\n"
            "* `left_mouse_up` : Relâcher le bouton gauche de la souris.\n"
            "* `left_click` : Cliquer avec le bouton gauche de la souris à la coordonnée (x, y) en pixels spécifiée sur l'écran. Vous pouvez également inclure une combinaison de touches à maintenir enfoncée pendant le clic en utilisant le paramètre `text`.\n"
            "* `left_click_drag` : Cliquer et faire glisser le curseur de `start_coordinate` vers une coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `right_click` : Cliquer avec le bouton droit de la souris à la coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `middle_click` : Cliquer avec le bouton du milieu de la souris à la coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `double_click` : Double-cliquer avec le bouton gauche de la souris à la coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `triple_click` : Triple-cliquer avec le bouton gauche de la souris à la coordonnée (x, y) en pixels spécifiée sur l'écran.\n"
            "* `scroll` : Faire défiler l'écran dans une direction spécifiée d'un nombre spécifié de clics de la molette de défilement, à la coordonnée (x, y) en pixels spécifiée. N'utilisez PAS PageUp/PageDown pour faire défiler.\n"
            "* `wait` : Attendre pendant une durée spécifiée (en secondes).\n"
            "* `screenshot` : Prendre une capture d'écran de l'écran.",
            "enum": [
                "key",
                "hold_key",
                "type",
                "cursor_position",
                "mouse_move",
                "left_mouse_down",
                "left_mouse_up",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "triple_click",
                "scroll",
                "wait",
                "screenshot",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y) : Les coordonnées x (pixels depuis le bord gauche) et y (pixels depuis le bord supérieur) vers lesquelles déplacer la souris. Requis uniquement par `action=mouse_move` et `action=left_click_drag`.",
            "type": "array",
        },
        "duration": {
            "description": "La durée pendant laquelle maintenir la touche enfoncée. Requis uniquement par `action=hold_key` et `action=wait`.",
            "type": "integer",
        },
        "scroll_amount": {
            "description": "Le nombre de 'clics' à faire défiler. Requis uniquement par `action=scroll`.",
            "type": "integer",
        },
        "scroll_direction": {
            "description": "La direction dans laquelle faire défiler l'écran. Requis uniquement par `action=scroll`.",
            "enum": ["up", "down", "left", "right"],
            "type": "string",
        },
        "start_coordinate": {
            "description": "(x, y) : Les coordonnées x (pixels depuis le bord gauche) et y (pixels depuis le bord supérieur) à partir desquelles commencer le glissement. Requis uniquement par `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Requis uniquement par `action=type`, `action=key`, et `action=hold_key`. Peut également être utilisé par les actions de clic ou de défilement pour maintenir des touches enfoncées pendant le clic ou le défilement.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Pour l’outil original computer_20241022 utilisé avec Claude Sonnet 3.5 (nouveau) :

{
    "properties": {
        "action": {
            "description": """L'action à effectuer. Les actions disponibles sont :
                * `key` : Appuyer sur une touche ou une combinaison de touches sur le clavier.
                  - Cela prend en charge la syntaxe `key` de xdotool.
                  - Exemples : "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (pour la touche 0 du pavé numérique).
                * `type` : Taper une chaîne de texte sur le clavier.
                * `cursor_position` : Obtenir la coordonnée actuelle (x, y) en pixels du curseur sur l'écran.
                * `mouse_move` : Déplacer le curseur vers une coordonnée (x, y) en pixels spécifiée sur l'écran.
                * `left_click` : Cliquer avec le bouton gauche de la souris.
                * `left_click_drag` : Cliquer et faire glisser le curseur vers une coordonnée (x, y) en pixels spécifiée sur l'écran.
                * `right_click` : Cliquer avec le bouton droit de la souris.
                * `middle_click` : Cliquer avec le bouton du milieu de la souris.
                * `double_click` : Double-cliquer avec le bouton gauche de la souris.
                * `screenshot` : Prendre une capture d'écran de l'écran.""",
            "enum": [
                "key",
                "type",
                "mouse_move",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "screenshot",
                "cursor_position",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x,y) : Les coordonnées x (pixels depuis le bord gauche) et y (pixels depuis le bord supérieur) vers lesquelles déplacer la souris. Requis uniquement par `action=mouse_move` et `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Requis uniquement par `action=type` et `action=key`.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Outil éditeur de texte

Types

text_editor_20250429 - Éditeur de texte mis à jour pour Claude 4 sans la commande undo_edit
text_editor_20250124 - Mêmes capacités que la version 20241022, à utiliser avec Claude Sonnet 3.7
text_editor_20241022 - Outil éditeur de texte original utilisé avec Claude Sonnet 3.5 (nouveau)

Description de l’outil

Nous fournissons notre description d’outil à titre de référence uniquement. Vous ne devriez pas spécifier cela dans votre appel d’outil défini par Anthropic.

Outil d'édition personnalisé pour visualiser, créer et éditer des fichiers
* L'état est persistant entre les appels de commandes et les discussions avec l'utilisateur
* Si `path` est un fichier, `view` affiche le résultat de l'application de `cat -n`. Si `path` est un répertoire, `view` liste les fichiers et répertoires non cachés jusqu'à 2 niveaux de profondeur
* La commande `create` ne peut pas être utilisée si le `path` spécifié existe déjà en tant que fichier
* Si une `commande` génère une sortie longue, elle sera tronquée et marquée avec `<response clipped>`
* La commande `undo_edit` annulera la dernière modification apportée au fichier à `path` (non disponible dans text_editor_20250429)

Notes pour l'utilisation de la commande `str_replace` :
* Le paramètre `old_str` doit correspondre EXACTEMENT à une ou plusieurs lignes consécutives du fichier original. Faites attention aux espaces !
* Si le paramètre `old_str` n'est pas unique dans le fichier, le remplacement ne sera pas effectué. Assurez-vous d'inclure suffisamment de contexte dans `old_str` pour le rendre unique
* Le paramètre `new_str` doit contenir les lignes éditées qui doivent remplacer `old_str`

Schéma d’entrée de l’outil

Nous fournissons notre schéma d’entrée à titre de référence uniquement. Vous ne devriez pas spécifier cela dans votre appel d’outil défini par Anthropic.

{
    "properties": {
        "command": {
            "description": "Les commandes à exécuter. Les options autorisées sont : `view`, `create`, `str_replace`, `insert`, `undo_edit`.",
            "enum": ["view", "create", "str_replace", "insert", "undo_edit"],
            "type": "string",
        },
        "file_text": {
            "description": "Paramètre requis de la commande `create`, avec le contenu du fichier à créer.",
            "type": "string",
        },
        "insert_line": {
            "description": "Paramètre requis de la commande `insert`. Le `new_str` sera inséré APRÈS la ligne `insert_line` de `path`.",
            "type": "integer",
        },
        "new_str": {
            "description": "Paramètre optionnel de la commande `str_replace` contenant la nouvelle chaîne (si non donnée, aucune chaîne ne sera ajoutée). Paramètre requis de la commande `insert` contenant la chaîne à insérer.",
            "type": "string",
        },
        "old_str": {
            "description": "Paramètre requis de la commande `str_replace` contenant la chaîne dans `path` à remplacer.",
            "type": "string",
        },
        "path": {
            "description": "Chemin absolu vers un fichier ou un répertoire, par exemple `/repo/file.py` ou `/repo`.",
            "type": "string",
        },
        "view_range": {
            "description": "Paramètre optionnel de la commande `view` lorsque `path` pointe vers un fichier. Si aucun n'est donné, le fichier complet est affiché. Si fourni, le fichier sera affiché dans la plage de numéros de ligne indiquée, par exemple [11, 12] affichera les lignes 11 et 12. Indexation à 1 pour commencer. Définir `[start_line, -1]` affiche toutes les lignes de `start_line` jusqu'à la fin du fichier.",
            "items": {"type": "integer"},
            "type": "array",
        },
    },
    "required": ["command", "path"],
    "type": "object",
}

Outil Bash

Types

bash_20250124 - Outil bash amélioré pour Claude 4 avec des capacités améliorées
bash_20250124 - Mêmes capacités que la version 20241022, à utiliser avec Claude Sonnet 3.7
bash_20241022 - Outil bash original utilisé avec Claude Sonnet 3.5 (nouveau)

Description de l’outil

Nous fournissons notre description d’outil à titre de référence uniquement. Vous ne devriez pas spécifier cela dans votre appel d’outil défini par Anthropic.

Exécuter des commandes dans un shell bash
* Lors de l'invocation de cet outil, le contenu du paramètre "command" n'a PAS besoin d'être échappé en XML.
* Vous avez accès à un miroir de packages Linux et Python courants via apt et pip.
* L'état est persistant entre les appels de commandes et les discussions avec l'utilisateur.
* Pour inspecter une plage de lignes particulière d'un fichier, par exemple les lignes 10-25, essayez 'sed -n 10,25p /chemin/vers/le/fichier'.
* Veuillez éviter les commandes qui peuvent produire une très grande quantité de sortie.
* Veuillez exécuter les commandes de longue durée en arrière-plan, par exemple 'sleep 10 &' ou démarrer un serveur en arrière-plan.

Schéma d’entrée de l’outil

Nous fournissons notre schéma d’entrée à titre de référence uniquement. Vous ne devriez pas spécifier cela dans votre appel d’outil défini par Anthropic.

{
    "properties": {
        "command": {
            "description": "La commande bash à exécuter. Requis sauf si l'outil est redémarré.",
            "type": "string",
        },
        "restart": {
            "description": "Spécifier true redémarrera cet outil. Sinon, laissez ceci non spécifié.",
            "type": "boolean",
        },
    }
}

Activer la capacité de réflexion dans Claude 4 et Claude Sonnet 3.7

Claude Sonnet 3.7 a introduit une nouvelle capacité de “réflexion” qui vous permet de voir le processus de raisonnement du modèle lorsqu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude aborde un problème et peut être particulièrement précieuse à des fins de débogage ou d’éducation.

Pour activer la réflexion, ajoutez un paramètre thinking à votre requête API :

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Le paramètre budget_tokens spécifie combien de tokens Claude peut utiliser pour la réflexion. Cela est soustrait de votre budget global max_tokens.

Lorsque la réflexion est activée, Claude renverra son processus de raisonnement dans le cadre de la réponse, ce qui peut vous aider à :

Comprendre le processus de prise de décision du modèle
Identifier les problèmes ou les idées fausses potentiels
Apprendre de l’approche de Claude pour résoudre les problèmes
Obtenir plus de visibilité sur les opérations complexes en plusieurs étapes

Voici un exemple de ce à quoi pourrait ressembler la sortie de réflexion :

[Thinking]
Je dois enregistrer une image de chat sur le bureau. Décomposons cela en étapes :

1. D'abord, je vais prendre une capture d'écran pour voir ce qui se trouve sur le bureau
2. Ensuite, je vais chercher un navigateur web pour rechercher des images de chats
3. Après avoir trouvé une image appropriée, je devrai l'enregistrer sur le bureau

Commençons par prendre une capture d'écran pour voir ce qui est disponible...

Combiner l’utilisation d’ordinateur avec d’autres outils

Vous pouvez combiner l’utilisation régulière d’outils avec les outils définis par Anthropic pour l’utilisation d’ordinateur.

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Construire un environnement d’utilisation d’ordinateur personnalisé

L’implémentation de référence est destinée à vous aider à démarrer avec l’utilisation d’ordinateur. Elle comprend tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation d’ordinateur selon vos besoins. Vous aurez besoin de :

Un environnement virtualisé ou conteneurisé adapté à l’utilisation d’ordinateur avec Claude
Une implémentation d’au moins un des outils d’utilisation d’ordinateur définis par Anthropic
Une boucle d’agent qui interagit avec l’API Anthropic et exécute les résultats tool_use en utilisant vos implémentations d’outils
Une API ou une interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent

Comprendre les limitations de l’utilisation d’ordinateur

La fonctionnalité d’utilisation d’ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :

Latence : la latence actuelle d’utilisation d’ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques régulières dirigées par l’humain. Nous recommandons de se concentrer sur les cas d’utilisation où la vitesse n’est pas critique (par exemple, la collecte d’informations en arrière-plan, les tests automatisés de logiciels) dans des environnements de confiance.
Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques lors de la génération d’actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
Précision et fiabilité de la sélection d’outils : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils pendant la génération d’actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être inférieure lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons aux utilisateurs d’inciter soigneusement le modèle lors de la demande de tâches complexes.
Fiabilité du défilement : Alors que Claude Sonnet 3.5 (nouveau) avait des limitations avec le défilement, Claude Sonnet 3.7 introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant explicitement faire défiler dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
Interaction avec les feuilles de calcul : Les clics de souris pour l’interaction avec les feuilles de calcul ont été améliorés dans Claude Sonnet 3.7 avec l’ajout d’actions de contrôle de souris plus précises comme left_mouse_down, left_mouse_up, et le nouveau support de touches modificatrices. La sélection de cellules peut être plus fiable en utilisant ces contrôles précis et en combinant des touches modificatrices avec des clics.
Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera des sites web, nous limitons sa capacité à créer des comptes ou à générer et partager du contenu ou à s’engager autrement dans l’usurpation d’identité humaine sur les sites web et plateformes de médias sociaux. Nous pourrons mettre à jour cette capacité à l’avenir.
Vulnérabilités : Des vulnérabilités comme le jailbreaking ou l’injection de prompts peuvent persister à travers les systèmes d’IA de pointe, y compris l’API bêta d’utilisation d’ordinateur. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, des instructions pour Claude sur des pages web ou contenues dans des images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Nous recommandons : a. Limiter l’utilisation d’ordinateur à des environnements de confiance tels que des machines virtuelles ou des conteneurs avec des privilèges minimaux b. Éviter de donner accès à l’utilisation d’ordinateur à des comptes ou des données sensibles sans surveillance stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou de demander les permissions nécessaires pour les fonctionnalités d’utilisation d’ordinateur dans vos applications
Actions inappropriées ou illégales : Selon les conditions d’utilisation d’Anthropic, vous ne devez pas employer l’utilisation d’ordinateur pour violer des lois ou notre Politique d’utilisation acceptable.

Vérifiez toujours soigneusement les actions et les journaux d’utilisation d’ordinateur de Claude. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou des informations utilisateur sensibles sans surveillance humaine.

Tarification

Consultez la documentation sur la tarification de l’utilisation d’outils pour une explication détaillée de la façon dont les requêtes API d’utilisation d’outils Claude sont tarifées.

En tant que sous-ensemble des requêtes d’utilisation d’outils, les requêtes d’utilisation d’ordinateur sont tarifées de la même manière que toute autre requête API Claude.

Nous incluons également automatiquement un prompt système spécial pour le modèle, qui permet l’utilisation d’ordinateur.

Modèle	Choix d’outil	Nombre de tokens du prompt système
Claude 4 Opus & Sonnet	`auto` `any`, `tool`	466 tokens 499 tokens
Claude Sonnet 3.7	`auto` `any`, `tool`	466 tokens 499 tokens
Claude Sonnet 3.5 (nouveau)	`auto` `any`, `tool`	466 tokens 499 tokens

En plus des tokens de base, les tokens d’entrée supplémentaires suivants sont nécessaires pour les outils définis par Anthropic :

Outil	Tokens d’entrée supplémentaires
`computer_20250124` (Claude 4)	735 tokens
`computer_20250124` (Claude Sonnet 3.7)	735 tokens
`computer_20241022` (Claude Sonnet 3.5)	683 tokens
`text_editor_20250429` (Claude 4)	700 tokens
`text_editor_20250124` (Claude Sonnet 3.7)	700 tokens
`text_editor_20241022` (Claude Sonnet 3.5)	700 tokens
`bash_20250124` (Claude 4)	245 tokens
`bash_20250124` (Claude Sonnet 3.7)	245 tokens
`bash_20241022` (Claude Sonnet 3.5)	245 tokens

Si vous activez la réflexion avec Claude 4 ou Claude Sonnet 3.7, les tokens utilisés pour la réflexion seront comptabilisés dans votre budget max_tokens en fonction des budget_tokens que vous spécifiez dans le paramètre de réflexion.

Release Notes

Implémentation de référence pour l'utilisation d'ordinateur

​Comment fonctionne l’utilisation d’ordinateur

​L’environnement informatique

​Comment implémenter l’utilisation d’ordinateur

​Commencez avec notre implémentation de référence

​Comprendre la boucle multi-agent

​Optimiser les performances du modèle avec le prompting

​Prompts système

​Comprendre les outils définis par Anthropic

​Activer la capacité de réflexion dans Claude 4 et Claude Sonnet 3.7

​Combiner l’utilisation d’ordinateur avec d’autres outils

​Construire un environnement d’utilisation d’ordinateur personnalisé

​Comprendre les limitations de l’utilisation d’ordinateur

​Tarification

Comment fonctionne l’utilisation d’ordinateur

L’environnement informatique

Comment implémenter l’utilisation d’ordinateur

Commencez avec notre implémentation de référence

Comprendre la boucle multi-agent

Optimiser les performances du modèle avec le prompting

Prompts système

Comprendre les outils définis par Anthropic

Activer la capacité de réflexion dans Claude 4 et Claude Sonnet 3.7

Combiner l’utilisation d’ordinateur avec d’autres outils

Construire un environnement d’utilisation d’ordinateur personnalisé

Comprendre les limitations de l’utilisation d’ordinateur

Tarification