Utilisation de l'ordinateur (bêta)
Claude 3.7 Sonnet et Claude 3.5 Sonnet (nouveau) sont capables d’interagir avec des outils qui peuvent manipuler un environnement de bureau. Claude 3.7 Sonnet introduit des outils supplémentaires et permet d’activer la réflexion, vous donnant plus d’aperçu sur le processus de raisonnement du modèle.
L’utilisation de l’ordinateur est une fonctionnalité bêta. Veuillez noter que l’utilisation de l’ordinateur présente des risques uniques qui sont distincts des fonctionnalités API standard ou des interfaces de chat. Ces risques sont accrus lors de l’utilisation de l’ordinateur pour interagir avec Internet. Pour minimiser les risques, envisagez de prendre des précautions telles que :
- Utilisez une machine virtuelle dédiée ou un conteneur avec des privilèges minimaux pour prévenir les attaques directes du système ou les accidents.
- Évitez de donner au modèle l’accès à des données sensibles, comme les informations de connexion aux comptes, pour prévenir le vol d’informations.
- Limitez l’accès à Internet à une liste blanche de domaines pour réduire l’exposition aux contenus malveillants.
- Demandez à un humain de confirmer les décisions qui peuvent avoir des conséquences significatives dans le monde réel ainsi que toutes les tâches nécessitant un consentement affirmatif, comme l’acceptation des cookies, l’exécution de transactions financières ou l’acceptation des conditions d’utilisation.
Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu même si cela entre en conflit avec les instructions de l’utilisateur. Par exemple, les instructions de Claude sur les pages web ou contenues dans les images peuvent remplacer les instructions ou causer des erreurs de Claude. Nous suggérons de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.
Nous avons entraîné le modèle à résister à ces injections de prompts et avons ajouté une couche de défense supplémentaire. Si vous utilisez nos outils d’utilisation de l’ordinateur, nous exécuterons automatiquement des classificateurs sur vos prompts pour signaler les instances potentielles d’injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d’écran, ils orienteront automatiquement le modèle pour demander une confirmation de l’utilisateur avant de procéder à l’action suivante. Nous reconnaissons que cette protection supplémentaire ne sera pas idéale pour tous les cas d’utilisation (par exemple, les cas d’utilisation sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, veuillez nous contacter.
Nous suggérons toujours de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompts.
Enfin, veuillez informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer l’utilisation de l’ordinateur dans vos propres produits.
Implémentation de référence pour l'utilisation de l'ordinateur
Démarrez rapidement avec notre implémentation de référence pour l’utilisation de l’ordinateur qui inclut une interface web, un conteneur Docker, des implémentations d’outils exemples et une boucle d’agent.
Note : L’implémentation a été mise à jour pour inclure de nouveaux outils pour Claude 3.7 Sonnet. Assurez-vous de tirer la dernière version du dépôt pour accéder à ces nouvelles fonctionnalités.
Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation - nous avons hâte d’avoir de vos nouvelles !
Voici un exemple de la façon de fournir des outils d’utilisation de l’ordinateur à Claude en utilisant l’API Messages :
Comment fonctionne l’utilisation de l’ordinateur
1. Fournir à Claude des outils d'utilisation de l'ordinateur et un prompt utilisateur
- Ajoutez des outils d’utilisation de l’ordinateur définis par Anthropic à votre requête API. - Incluez un prompt utilisateur qui pourrait nécessiter ces outils, par exemple, “Enregistre une image de chat sur mon bureau.”
2. Claude décide d'utiliser un outil
- Claude charge les définitions d’outils d’utilisation de l’ordinateur
stockées et évalue si des outils peuvent aider avec la requête de
l’utilisateur. - Si oui, Claude construit une requête d’utilisation d’outil
correctement formatée. - La réponse de l’API a une
stop_reason
detool_use
, signalant l’intention de Claude.
3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et renvoyer les résultats
- De votre côté, extrayez le nom de l’outil et l’entrée de la requête de
Claude. - Utilisez l’outil sur un conteneur ou une Machine Virtuelle. -
Continuez la conversation avec un nouveau message
user
contenant un bloc de contenutool_result
.
4. Claude continue d'appeler des outils d'utilisation de l'ordinateur jusqu'à ce qu'il ait terminé la tâche
- Claude analyse les résultats de l’outil pour déterminer si plus
d’utilisation d’outils est nécessaire ou si la tâche est terminée. - Si
Claude décide qu’il a besoin d’un autre outil, il répond avec une autre
stop_reason
tool_use
et vous devez retourner à l’étape 3. - Sinon, il crée une réponse textuelle pour l’utilisateur.
Nous appelons la répétition des étapes 3 et 4 sans entrée utilisateur la “boucle d’agent” - c’est-à-dire, Claude répondant avec une requête d’utilisation d’outil et votre application répondant à Claude avec les résultats de l’évaluation de cette requête.
L’environnement informatique
L’utilisation de l’ordinateur nécessite un environnement informatique isolé où Claude peut interagir en toute sécurité avec les applications et le web. Cet environnement comprend :
-
Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra à travers des captures d’écran et contrôlera avec des actions de souris/clavier.
-
Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.
-
Applications : Applications Linux préinstallées comme Firefox, LibreOffice, éditeurs de texte et gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
-
Implémentations d’outils : Code d’intégration qui traduit les requêtes d’outils abstraits de Claude (comme “déplacer la souris” ou “prendre une capture d’écran”) en opérations réelles dans l’environnement virtuel.
-
Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et renvoyant les résultats (captures d’écran, sorties de commandes) à Claude.
Lorsque vous utilisez l’utilisation de l’ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :
- Reçoit les requêtes d’utilisation d’outils de Claude
- Les traduit en actions dans votre environnement informatique
- Capture les résultats (captures d’écran, sorties de commandes, etc.)
- Renvoie ces résultats à Claude
Pour la sécurité et l’isolation, l’implémentation de référence exécute tout cela à l’intérieur d’un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l’environnement.
Comment implémenter l’utilisation de l’ordinateur
Commencez avec notre implémentation de référence
Nous avons construit une implémentation de référence qui inclut tout ce dont vous avez besoin pour démarrer rapidement avec l’utilisation de l’ordinateur :
- Un environnement conteneurisé adapté à l’utilisation de l’ordinateur avec Claude
- Des implémentations des outils d’utilisation de l’ordinateur
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les outils d’utilisation de l’ordinateur
- Une interface web pour interagir avec le conteneur, la boucle d’agent et les outils.
Comprendre la boucle multi-agent
Le cœur de l’utilisation de l’ordinateur est la “boucle d’agent” - un cycle où Claude demande des actions d’outils, votre application les exécute et renvoie les résultats à Claude. Voici un exemple simplifié :
La boucle continue jusqu’à ce que soit Claude réponde sans demander d’outils (tâche terminée) soit la limite maximale d’itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts API inattendus.
Pour chaque version des outils, vous devez utiliser le drapeau bêta correspondant dans votre requête API :
Nous recommandons d’essayer l’implémentation de référence avant de lire le reste de cette documentation.
Optimiser les performances du modèle avec le prompting
Voici quelques conseils pour obtenir les meilleures sorties de qualité :
- Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
- Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez inciter Claude avec
Après chaque étape, prenez une capture d'écran et évaluez soigneusement si vous avez obtenu le bon résultat. Montrez explicitement votre réflexion : "J'ai évalué l'étape X..." Si ce n'est pas correct, réessayez. Ne passez à l'étape suivante que lorsque vous confirmez qu'une étape a été exécutée correctement.
- Certains éléments d’interface utilisateur (comme les listes déroulantes et les barres de défilement) peuvent être difficiles à manipuler pour Claude en utilisant les mouvements de souris. Si vous rencontrez ce problème, essayez d’inciter le modèle à utiliser les raccourcis clavier.
- Pour les tâches répétitives ou les interactions avec l’interface utilisateur, incluez des captures d’écran et des appels d’outils de résultats réussis dans votre prompt.
- Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre prompt à l’intérieur de balises xml comme
<robot_credentials>
. L’utilisation de l’ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats à cause de l’injection de prompts. Veuillez consulter notre guide sur l’atténuation des injections de prompts avant de fournir au modèle des identifiants de connexion.
Si vous rencontrez régulièrement un ensemble clair de problèmes ou savez à l’avance les tâches que Claude devra accomplir, utilisez le prompt système pour fournir à Claude des conseils ou instructions explicites sur la façon d’accomplir les tâches avec succès.
Prompts système
Lorsqu’un des outils définis par Anthropic est demandé via l’API Anthropic, un prompt système spécifique à l’utilisation de l’ordinateur est généré. Il est similaire au prompt système d’utilisation d’outil mais commence par :
Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique isolé. Vous n’avez PAS actuellement la capacité d’inspecter des fichiers ou d’interagir avec des ressources externes, sauf en invoquant les fonctions ci-dessous.
Comme avec l’utilisation régulière d’outils, le champ system_prompt
fourni par l’utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.
Comprendre les outils définis par Anthropic
Nous avons fourni un ensemble d’outils qui permettent à Claude d’utiliser efficacement les ordinateurs. Lors de la spécification d’un outil défini par Anthropic, les champs description
et tool_schema
ne sont pas nécessaires ni auto
risés.
Les outils définis par Anthropic sont exécutés par l’utilisateur
Les outils définis par Anthropic sont définis par Anthropic mais vous devez explicitement évaluer les résultats de l’outil et renvoyer les tool_results
à Claude. Comme avec n’importe quel outil, le modèle n’exécute pas automatiquement l’outil.
Nous fournissons un ensemble d’outils définis par Anthropic, chaque outil ayant des versions optimisées pour Claude 3.5 Sonnet (nouveau) et Claude 3.7 Sonnet :
Le champ type
identifie l’outil et ses paramètres à des fins de validation, le champ name
est le nom de l’outil exposé au modèle.
Si vous voulez inciter le modèle à utiliser l’un de ces outils, vous pouvez explicitement faire référence à l’outil par le champ name
. Le champ name
doit être unique dans la liste d’outils ; vous ne pouvez pas définir un outil avec le même nom qu’un outil défini par Anthropic dans le même appel API.
Nous ne recommandons pas de définir des outils avec les noms des outils
définis par Anthropic. Bien que vous puissiez toujours redéfinir des outils
avec ces noms (tant que le nom de l’outil est unique dans votre bloc
tools
), cela peut entraîner une dégradation des performances du modèle.
Activer la capacité de réflexion dans Claude 3.7 Sonnet
Claude 3.7 Sonnet introduit une nouvelle capacité de “réflexion” qui vous permet de voir le processus de raisonnement du modèle lorsqu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude aborde un problème et peut être particulièrement précieuse pour le débogage ou à des fins éducatives.
Pour activer la réflexion, ajoutez un paramètre thinking
à votre requête API :
Le paramètre budget_tokens
spécifie combien de tokens Claude peut utiliser pour la réflexion. Ceci est soustrait de votre budget global max_tokens
.
Lorsque la réflexion est activée, Claude renverra son processus de raisonnement dans le cadre de la réponse, ce qui peut vous aider à :
- Comprendre le processus de prise de décision du modèle
- Identifier les problèmes ou les malentendus potentiels
- Apprendre de l’approche de Claude pour la résolution de problèmes
- Obtenir plus de visibilité sur les opérations complexes en plusieurs étapes
Voici un exemple de ce à quoi pourrait ressembler la sortie de réflexion :
Combiner l’utilisation de l’ordinateur avec d’autres outils
Vous pouvez combiner l’utilisation régulière d’outils avec les outils définis par Anthropic pour l’utilisation de l’ordinateur.
Construire un environnement d’utilisation de l’ordinateur personnalisé
L’implémentation de référence est destinée à vous aider à démarrer avec l’utilisation de l’ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation de l’ordinateur selon vos besoins. Vous aurez besoin de :
- Un environnement virtualisé ou conteneurisé adapté à l’utilisation de l’ordinateur avec Claude
- Une implémentation d’au moins un des outils d’utilisation de l’ordinateur définis par Anthropic
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les résultats
tool_use
en utilisant vos implémentations d’outils - Une API ou une interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent
Comprendre les limitations de l’utilisation de l’ordinateur
La fonctionnalité d’utilisation de l’ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :
- Latence : la latence actuelle d’utilisation de l’ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques dirigées par l’humain. Nous recommandons de se concentrer sur les cas d’utilisation où la vitesse n’est pas critique (par exemple, la collecte d’informations en arrière-plan, les tests automatisés de logiciels) dans des environnements de confiance.
- Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques lors de la génération d’actions. Claude 3.7 Sonnet introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
- Précision et fiabilité de la sélection d’outils : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils pendant la génération d’actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être plus faible lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons aux utilisateurs d’inciter soigneusement le modèle lors de la demande de tâches complexes.
- Fiabilité du défilement : Alors que Claude 3.5 Sonnet (nouveau) avait des limitations avec le défilement, Claude 3.7 Sonnet introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant explicitement faire défiler dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
- Interaction avec les feuilles de calcul : Les clics de souris pour l’interaction avec les feuilles de calcul se sont améliorés dans Claude 3.7 Sonnet avec l’ajout d’actions de contrôle de souris plus précises comme
left_mouse_down
,left_mouse_up
, et le nouveau support de touches modificatrices. La sélection de cellules peut être plus fiable en utilisant ces contrôles fins et en combinant les touches modificatrices avec les clics. - Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera des sites web, nous limitons sa capacité à créer des comptes ou à générer et partager du contenu ou autrement à s’engager dans l’usurpation d’identité humaine sur les sites web et plateformes de médias sociaux. Nous pourrons mettre à jour cette capacité à l’avenir.
- Vulnérabilités : Les vulnérabilités comme le jailbreaking ou l’injection de prompts peuvent persister à travers les systèmes d’IA frontière, y compris l’API bêta d’utilisation de l’ordinateur. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, les instructions de Claude sur les pages web ou contenues dans les images peuvent remplacer les instructions ou causer des erreurs de Claude. Nous recommandons : a. Limiter l’utilisation de l’ordinateur à des environnements de confiance tels que des machines virtuelles ou des conteneurs avec des privilèges minimaux b. Éviter de donner l’accès à l’utilisation de l’ordinateur à des comptes ou données sensibles sans surveillance stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou de demander les permissions nécessaires pour les fonctionnalités d’utilisation de l’ordinateur dans vos applications
- Actions inappropriées ou illégales : Selon les conditions d’utilisation d’Anthropic, vous ne devez pas employer l’utilisation de l’ordinateur pour violer des lois ou notre Politique d’utilisation acceptable.
Examinez toujours soigneusement et vérifiez les actions et les journaux d’utilisation de l’ordinateur de Claude. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou des informations utilisateur sensibles sans surveillance humaine.
Tarification
Consultez la documentation sur la tarification de l’utilisation d’outils pour une explication détaillée de la façon dont les requêtes API d’utilisation d’outils Claude sont tarifées.
En tant que sous-ensemble des requêtes d’utilisation d’outils, les requêtes d’utilisation de l’ordinateur sont tarifées de la même manière que toute autre requête API Claude.
Nous incluons également automatiquement un prompt système spécial pour le modèle, qui active l’utilisation de l’ordinateur.
Modèle | Choix d’outil | Nombre de tokens du prompt système |
---|---|---|
Claude 3.5 Sonnet (nouveau) | auto any , tool | 466 tokens 499 tokens |
Claude 3.7 Sonnet | auto any , tool | 466 tokens 499 tokens |
En plus des tokens de base, les tokens d’entrée supplémentaires suivants sont nécessaires pour les outils définis par Anthropic :
Outil | Tokens d’entrée supplémentaires |
---|---|
computer_20241022 (Claude 3.5 Sonnet) | 683 tokens |
computer_20250124 (Claude 3.7 Sonnet) | 735 tokens |
text_editor_20241022 (Claude 3.5 Sonnet) | 700 tokens |
text_editor_20250124 (Claude 3.7 Sonnet) | 700 tokens |
bash_20241022 (Claude 3.5 Sonnet) | 245 tokens |
bash_20250124 (Claude 3.7 Sonnet) | 245 tokens |
Si vous activez la réflexion avec Claude 3.7 Sonnet, les tokens utilisés pour la réflexion seront comptés dans votre budget max_tokens
en fonction des budget_tokens
que vous spécifiez dans le paramètre de réflexion.
Was this page helpful?