Utilisation d'ordinateur (bêta)
Claude 4 Opus et Sonnet, ainsi que Claude Sonnet 3.7 et Claude Sonnet 3.5 (nouveau), sont capables d’interagir avec des outils qui peuvent manipuler un environnement de bureau informatique. Les modèles Claude 4 utilisent des versions d’outils mises à jour et optimisées pour la nouvelle architecture. Claude Sonnet 3.7 introduit des outils supplémentaires et vous permet d’activer la réflexion, vous donnant plus d’informations sur le processus de raisonnement du modèle.
L’utilisation d’ordinateur est une fonctionnalité bêta. Veuillez noter que l’utilisation d’ordinateur présente des risques uniques qui sont distincts des fonctionnalités API standard ou des interfaces de chat. Ces risques sont accrus lors de l’utilisation d’ordinateur pour interagir avec Internet. Pour minimiser les risques, envisagez de prendre des précautions telles que :
- Utiliser une machine virtuelle dédiée ou un conteneur avec des privilèges minimaux pour prévenir les attaques directes du système ou les accidents.
- Éviter de donner au modèle accès à des données sensibles, comme les informations de connexion à un compte, pour prévenir le vol d’informations.
- Limiter l’accès à Internet à une liste blanche de domaines pour réduire l’exposition à du contenu malveillant.
- Demander à un humain de confirmer les décisions qui pourraient entraîner des conséquences significatives dans le monde réel ainsi que toutes les tâches nécessitant un consentement affirmatif, comme l’acceptation de cookies, l’exécution de transactions financières ou l’acceptation de conditions d’utilisation.
Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu même si cela entre en conflit avec les instructions de l’utilisateur. Par exemple, des instructions pour Claude sur des pages web ou contenues dans des images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Nous suggérons de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.
Nous avons entraîné le modèle à résister à ces injections de prompts et avons ajouté une couche de défense supplémentaire. Si vous utilisez nos outils d’utilisation d’ordinateur, nous exécuterons automatiquement des classificateurs sur vos prompts pour signaler les cas potentiels d’injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d’écran, ils orienteront automatiquement le modèle pour demander une confirmation de l’utilisateur avant de procéder à l’action suivante. Nous reconnaissons que cette protection supplémentaire ne sera pas idéale pour tous les cas d’utilisation (par exemple, les cas d’utilisation sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, veuillez nous contacter.
Nous suggérons toujours de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.
Enfin, veuillez informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer l’utilisation d’ordinateur dans vos propres produits.
Implémentation de référence pour l'utilisation d'ordinateur
Démarrez rapidement avec notre implémentation de référence pour l’utilisation d’ordinateur qui comprend une interface web, un conteneur Docker, des implémentations d’outils d’exemple et une boucle d’agent.
Remarque : L’implémentation a été mise à jour pour inclure de nouveaux outils pour Claude 4 et Claude Sonnet 3.7. Assurez-vous de récupérer la dernière version du dépôt pour accéder à ces nouvelles fonctionnalités.
Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation - nous avons hâte de vous entendre !
Voici un exemple de la façon de fournir des outils d’utilisation d’ordinateur à Claude en utilisant l’API Messages :
Comment fonctionne l’utilisation d’ordinateur
1. Fournir à Claude des outils d'utilisation d'ordinateur et un prompt utilisateur
- Ajoutez des outils d’utilisation d’ordinateur définis par Anthropic à votre requête API.
- Incluez un prompt utilisateur qui pourrait nécessiter ces outils, par exemple, “Enregistre une image de chat sur mon bureau.”
2. Claude décide d'utiliser un outil
- Claude charge les définitions d’outils d’utilisation d’ordinateur stockées et évalue si des outils peuvent aider à répondre à la requête de l’utilisateur.
- Si oui, Claude construit une requête d’utilisation d’outil correctement formatée.
- La réponse de l’API a un
stop_reason
detool_use
, signalant l’intention de Claude.
3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et renvoyer les résultats
- De votre côté, extrayez le nom de l’outil et l’entrée de la requête de Claude.
- Utilisez l’outil sur un conteneur ou une machine virtuelle.
- Continuez la conversation avec un nouveau message
user
contenant un bloc de contenutool_result
.
4. Claude continue d'appeler des outils d'utilisation d'ordinateur jusqu'à ce qu'il ait terminé la tâche
- Claude analyse les résultats de l’outil pour déterminer si une utilisation supplémentaire d’outil est nécessaire ou si la tâche a été accomplie.
- Si Claude décide qu’il a besoin d’un autre outil, il répond avec un autre
stop_reason
tool_use
et vous devriez revenir à l’étape 3. - Sinon, il élabore une réponse textuelle pour l’utilisateur.
Nous appelons la répétition des étapes 3 et 4 sans entrée utilisateur la “boucle d’agent” - c’est-à-dire, Claude répondant avec une demande d’utilisation d’outil et votre application répondant à Claude avec les résultats de l’évaluation de cette demande.
L’environnement informatique
L’utilisation d’ordinateur nécessite un environnement informatique isolé où Claude peut interagir en toute sécurité avec des applications et le web. Cet environnement comprend :
-
Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra à travers des captures d’écran et contrôlera avec des actions de souris/clavier.
-
Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.
-
Applications : Applications Linux préinstallées comme Firefox, LibreOffice, éditeurs de texte et gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
-
Implémentations d’outils : Code d’intégration qui traduit les demandes d’outils abstraites de Claude (comme “déplacer la souris” ou “prendre une capture d’écran”) en opérations réelles dans l’environnement virtuel.
-
Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et renvoyant les résultats (captures d’écran, sorties de commandes) à Claude.
Lorsque vous utilisez l’utilisation d’ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :
- Reçoit les demandes d’utilisation d’outils de Claude
- Les traduit en actions dans votre environnement informatique
- Capture les résultats (captures d’écran, sorties de commandes, etc.)
- Renvoie ces résultats à Claude
Pour la sécurité et l’isolation, l’implémentation de référence exécute tout cela à l’intérieur d’un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l’environnement.
Comment implémenter l’utilisation d’ordinateur
Commencez avec notre implémentation de référence
Nous avons construit une implémentation de référence qui comprend tout ce dont vous avez besoin pour démarrer rapidement avec l’utilisation d’ordinateur :
- Un environnement conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Des implémentations des outils d’utilisation d’ordinateur
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les outils d’utilisation d’ordinateur
- Une interface web pour interagir avec le conteneur, la boucle d’agent et les outils.
Comprendre la boucle multi-agent
Le cœur de l’utilisation d’ordinateur est la “boucle d’agent” - un cycle où Claude demande des actions d’outils, votre application les exécute et renvoie les résultats à Claude. Voici un exemple simplifié :
La boucle continue jusqu’à ce que Claude réponde sans demander d’outils (tâche terminée) ou que la limite maximale d’itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts API inattendus.
Pour chaque version des outils, vous devez utiliser l’indicateur bêta correspondant dans votre requête API :
Nous vous recommandons d’essayer l’implémentation de référence avant de lire le reste de cette documentation.
Optimiser les performances du modèle avec le prompting
Voici quelques conseils pour obtenir les meilleures sorties de qualité :
- Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
- Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez inciter Claude avec
Après chaque étape, prends une capture d'écran et évalue soigneusement si tu as obtenu le bon résultat. Montre explicitement ton raisonnement : "J'ai évalué l'étape X..." Si ce n'est pas correct, essaie à nouveau. Ce n'est que lorsque tu confirmes qu'une étape a été correctement exécutée que tu dois passer à la suivante.
- Certains éléments d’interface utilisateur (comme les menus déroulants et les barres de défilement) peuvent être difficiles à manipuler pour Claude en utilisant des mouvements de souris. Si vous rencontrez ce problème, essayez d’inciter le modèle à utiliser des raccourcis clavier.
- Pour les tâches répétables ou les interactions d’interface utilisateur, incluez des captures d’écran d’exemple et des appels d’outils de résultats réussis dans votre prompt.
- Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre prompt à l’intérieur de balises xml comme
<robot_credentials>
. L’utilisation d’ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats suite à une injection de prompt. Veuillez consulter notre guide sur l’atténuation des injections de prompts avant de fournir au modèle des informations d’identification.
Si vous rencontrez à plusieurs reprises un ensemble clair de problèmes ou si vous connaissez à l’avance les tâches que Claude devra accomplir, utilisez le prompt système pour fournir à Claude des conseils ou des instructions explicites sur la façon d’accomplir les tâches avec succès.
Prompts système
Lorsqu’un des outils définis par Anthropic est demandé via l’API Anthropic, un prompt système spécifique à l’utilisation d’ordinateur est généré. Il est similaire au prompt système d’utilisation d’outil mais commence par :
Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique isolé. Vous n’avez PAS actuellement la capacité d’inspecter des fichiers ou d’interagir avec des ressources externes, sauf en invoquant les fonctions ci-dessous.
Comme avec l’utilisation régulière d’outils, le champ system_prompt
fourni par l’utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.
Comprendre les outils définis par Anthropic
Nous avons fourni un ensemble d’outils qui permettent à Claude d’utiliser efficacement des ordinateurs. Lors de la spécification d’un outil défini par Anthropic, les champs description
et tool_schema
ne sont pas nécessaires ou autorisés.
Les outils définis par Anthropic sont exécutés par l’utilisateur
Les outils définis par Anthropic sont définis par Anthropic, mais vous devez explicitement évaluer les résultats de l’outil et renvoyer les tool_results
à Claude. Comme pour tout outil, le modèle n’exécute pas automatiquement l’outil.
Nous fournissons un ensemble d’outils définis par Anthropic, chaque outil ayant des versions optimisées pour Claude 4, Claude Sonnet 3.7 et Claude Sonnet 3.5 :
Le champ type
identifie l’outil et ses paramètres à des fins de validation, le champ name
est le nom de l’outil exposé au modèle.
Si vous souhaitez inciter le modèle à utiliser l’un de ces outils, vous pouvez explicitement faire référence à l’outil par le champ name
. Le champ name
doit être unique dans la liste d’outils ; vous ne pouvez pas définir un outil avec le même nom qu’un outil défini par Anthropic dans le même appel API.
Nous ne recommandons pas de définir des outils avec les noms d’outils définis
par Anthropic. Bien que vous puissiez toujours redéfinir des outils avec ces
noms (tant que le nom de l’outil est unique dans votre bloc tools
), cela
peut entraîner une dégradation des performances du modèle.
Activer la capacité de réflexion dans Claude 4 et Claude Sonnet 3.7
Claude Sonnet 3.7 a introduit une nouvelle capacité de “réflexion” qui vous permet de voir le processus de raisonnement du modèle lorsqu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude aborde un problème et peut être particulièrement précieuse à des fins de débogage ou d’éducation.
Pour activer la réflexion, ajoutez un paramètre thinking
à votre requête API :
Le paramètre budget_tokens
spécifie combien de tokens Claude peut utiliser pour la réflexion. Cela est soustrait de votre budget global max_tokens
.
Lorsque la réflexion est activée, Claude renverra son processus de raisonnement dans le cadre de la réponse, ce qui peut vous aider à :
- Comprendre le processus de prise de décision du modèle
- Identifier les problèmes ou les idées fausses potentiels
- Apprendre de l’approche de Claude pour résoudre les problèmes
- Obtenir plus de visibilité sur les opérations complexes en plusieurs étapes
Voici un exemple de ce à quoi pourrait ressembler la sortie de réflexion :
Combiner l’utilisation d’ordinateur avec d’autres outils
Vous pouvez combiner l’utilisation régulière d’outils avec les outils définis par Anthropic pour l’utilisation d’ordinateur.
Construire un environnement d’utilisation d’ordinateur personnalisé
L’implémentation de référence est destinée à vous aider à démarrer avec l’utilisation d’ordinateur. Elle comprend tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation d’ordinateur selon vos besoins. Vous aurez besoin de :
- Un environnement virtualisé ou conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Une implémentation d’au moins un des outils d’utilisation d’ordinateur définis par Anthropic
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les résultats
tool_use
en utilisant vos implémentations d’outils - Une API ou une interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent
Comprendre les limitations de l’utilisation d’ordinateur
La fonctionnalité d’utilisation d’ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :
- Latence : la latence actuelle d’utilisation d’ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques régulières dirigées par l’humain. Nous recommandons de se concentrer sur les cas d’utilisation où la vitesse n’est pas critique (par exemple, la collecte d’informations en arrière-plan, les tests automatisés de logiciels) dans des environnements de confiance.
- Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques lors de la génération d’actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
- Précision et fiabilité de la sélection d’outils : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils pendant la génération d’actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être inférieure lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons aux utilisateurs d’inciter soigneusement le modèle lors de la demande de tâches complexes.
- Fiabilité du défilement : Alors que Claude Sonnet 3.5 (nouveau) avait des limitations avec le défilement, Claude Sonnet 3.7 introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant explicitement faire défiler dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
- Interaction avec les feuilles de calcul : Les clics de souris pour l’interaction avec les feuilles de calcul ont été améliorés dans Claude Sonnet 3.7 avec l’ajout d’actions de contrôle de souris plus précises comme
left_mouse_down
,left_mouse_up
, et le nouveau support de touches modificatrices. La sélection de cellules peut être plus fiable en utilisant ces contrôles précis et en combinant des touches modificatrices avec des clics. - Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera des sites web, nous limitons sa capacité à créer des comptes ou à générer et partager du contenu ou à s’engager autrement dans l’usurpation d’identité humaine sur les sites web et plateformes de médias sociaux. Nous pourrons mettre à jour cette capacité à l’avenir.
- Vulnérabilités : Des vulnérabilités comme le jailbreaking ou l’injection de prompts peuvent persister à travers les systèmes d’IA de pointe, y compris l’API bêta d’utilisation d’ordinateur. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, des instructions pour Claude sur des pages web ou contenues dans des images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Nous recommandons : a. Limiter l’utilisation d’ordinateur à des environnements de confiance tels que des machines virtuelles ou des conteneurs avec des privilèges minimaux b. Éviter de donner accès à l’utilisation d’ordinateur à des comptes ou des données sensibles sans surveillance stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou de demander les permissions nécessaires pour les fonctionnalités d’utilisation d’ordinateur dans vos applications
- Actions inappropriées ou illégales : Selon les conditions d’utilisation d’Anthropic, vous ne devez pas employer l’utilisation d’ordinateur pour violer des lois ou notre Politique d’utilisation acceptable.
Vérifiez toujours soigneusement les actions et les journaux d’utilisation d’ordinateur de Claude. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou des informations utilisateur sensibles sans surveillance humaine.
Tarification
Consultez la documentation sur la tarification de l’utilisation d’outils pour une explication détaillée de la façon dont les requêtes API d’utilisation d’outils Claude sont tarifées.
En tant que sous-ensemble des requêtes d’utilisation d’outils, les requêtes d’utilisation d’ordinateur sont tarifées de la même manière que toute autre requête API Claude.
Nous incluons également automatiquement un prompt système spécial pour le modèle, qui permet l’utilisation d’ordinateur.
Modèle | Choix d’outil | Nombre de tokens du prompt système |
---|---|---|
Claude 4 Opus & Sonnet | auto any , tool | 466 tokens 499 tokens |
Claude Sonnet 3.7 | auto any , tool | 466 tokens 499 tokens |
Claude Sonnet 3.5 (nouveau) | auto any , tool | 466 tokens 499 tokens |
En plus des tokens de base, les tokens d’entrée supplémentaires suivants sont nécessaires pour les outils définis par Anthropic :
Outil | Tokens d’entrée supplémentaires |
---|---|
computer_20250124 (Claude 4) | 735 tokens |
computer_20250124 (Claude Sonnet 3.7) | 735 tokens |
computer_20241022 (Claude Sonnet 3.5) | 683 tokens |
text_editor_20250429 (Claude 4) | 700 tokens |
text_editor_20250124 (Claude Sonnet 3.7) | 700 tokens |
text_editor_20241022 (Claude Sonnet 3.5) | 700 tokens |
bash_20250124 (Claude 4) | 245 tokens |
bash_20250124 (Claude Sonnet 3.7) | 245 tokens |
bash_20241022 (Claude Sonnet 3.5) | 245 tokens |
Si vous activez la réflexion avec Claude 4 ou Claude Sonnet 3.7, les tokens utilisés pour la réflexion seront comptabilisés dans votre budget max_tokens
en fonction des budget_tokens
que vous spécifiez dans le paramètre de réflexion.