Computernutzung (Beta)
Das aufgewertete Claude 3.5 Sonnet-Modell ist in der Lage, mit Tools zu interagieren, die eine Computerdesktopumgebung manipulieren können.
Die Computernutzung ist eine Betafunktion. Bitte beachten Sie, dass die Computernutzung einzigartige Risiken birgt, die sich von Standard-API-Funktionen oder Chat-Schnittstellen unterscheiden. Diese Risiken sind bei der Verwendung der Computernutzung für die Interaktion mit dem Internet erhöht. Um Risiken zu minimieren, sollten Sie Vorsichtsmaßnahmen wie die folgenden treffen:
- Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Berechtigungen, um direkte Systemangriffe oder Unfälle zu verhindern.
- Geben Sie dem Modell keinen Zugriff auf sensible Daten wie Kontoanmeldeinformationen, um Informationsdiebstahl zu verhindern.
- Beschränken Sie den Internetzugriff auf eine Zulassungsliste von Domains, um die Gefährdung durch schädliche Inhalte zu reduzieren.
- Lassen Sie einen Menschen Entscheidungen bestätigen, die zu bedeutenden realen Konsequenzen führen können, sowie alle Aufgaben, die eine ausdrückliche Zustimmung erfordern, wie z. B. das Akzeptieren von Cookies, die Ausführung von Finanztransaktionen oder die Zustimmung zu Nutzungsbedingungen.
In manchen Fällen folgt Claude Anweisungen, die in Inhalten enthalten sind, selbst wenn sie den Anweisungen des Benutzers widersprechen. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern die Anweisungen des Benutzers außer Kraft setzen oder dazu führen, dass Claude Fehler macht. Wir empfehlen, Vorsichtsmaßnahmen zu treffen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt-Injektionen zu vermeiden.
Bitte informieren Sie Endbenutzer über relevante Risiken und holen Sie ihre Zustimmung ein, bevor Sie die Computernutzung in Ihren eigenen Produkten aktivieren.
Referenzimplementierung für die Computernutzung
Starten Sie schnell mit unserer Referenzimplementierung für die Computernutzung, die eine Weboberfläche, einen Docker-Container, Beispielimplementierungen von Tools und eine Agent-Schleife enthält.
Bitte verwenden Sie dieses Formular, um Feedback zur Qualität der Modellantworten, zur API selbst oder zur Qualität der Dokumentation zu geben - wir freuen uns darauf, von Ihnen zu hören!
Hier ist ein Beispiel dafür, wie Sie Claude Computernutzungs-Tools über die Messages-API zur Verfügung stellen:
Wie die Computernutzung funktioniert
1. Stellen Sie Claude Computernutzungs-Tools und eine Benutzeranfrage zur Verfügung
- Fügen Sie Anthropic-definierte Computernutzungs-Tools zu Ihrer API-Anfrage hinzu.
- Schließen Sie eine Benutzeranfrage ein, die diese Tools möglicherweise benötigt, z. B. “Speichere ein Bild einer Katze auf meinem Desktop.”
2. Claude entscheidet, ein Tool zu verwenden
- Claude lädt die gespeicherten Computernutzungs-Tool-Definitionen und bewertet, ob eines der Tools bei der Beantwortung der Benutzeranfrage helfen kann.
- Wenn ja, erstellt Claude eine korrekt formatierte Tool-Verwendungsanfrage.
- Die API-Antwort hat einen
stop_reason
vontool_use
, der die Absicht von Claude signalisiert.
3. Extrahieren Sie die Tool-Eingabe, bewerten Sie das Tool auf einem Computer und geben Sie die Ergebnisse zurück
- Extrahieren Sie auf Ihrer Seite den Tool-Namen und die Eingabe aus der Anfrage von Claude.
- Verwenden Sie das Tool in einem Container oder einer virtuellen Maschine.
- Setzen Sie die Konversation mit einer neuen
user
-Nachricht fort, die einentool_result
-Inhaltsblock enthält.
4. Claude ruft weiterhin Computernutzungs-Tools auf, bis die Aufgabe abgeschlossen ist
- Claude analysiert die Tool-Ergebnisse, um zu bestimmen, ob weitere Tool-Verwendungen erforderlich sind oder die Aufgabe abgeschlossen wurde.
- Wenn Claude entscheidet, dass es ein weiteres Tool benötigt, antwortet es mit einem anderen
tool_use
stop_reason
und Sie sollten zu Schritt 3 zurückkehren. - Andernfalls erstellt es eine Textantwort für den Benutzer.
Wir bezeichnen die Wiederholung der Schritte 3 und 4 ohne Benutzereingabe als “Agent-Schleife” - d. h. Claude antwortet mit einer Tool-Verwendungsanfrage und Ihre Anwendung antwortet Claude mit den Ergebnissen der Auswertung dieser Anfrage.
Wie man die Computernutzung implementiert
Starten Sie mit unserer Referenzimplementierung
Wir haben eine Referenzimplementierung erstellt, die alles enthält, was Sie für einen schnellen Einstieg in die Computernutzung benötigen:
- Eine containerisierte Umgebung, die für die Computernutzung mit Claude geeignet ist
- Implementierungen der Computernutzungs-Tools
- Eine Agent-Schleife, die mit der Anthropic-API interagiert und die
tool_use
-Ergebnisse mit Ihren Tool-Implementierungen ausführt - Eine Weboberfläche zur Interaktion mit dem Container, der Agent-Schleife und den Tools.
Wir empfehlen, die Referenzimplementierung auszuprobieren, bevor Sie den Rest dieser Dokumentation lesen.
Optimieren Sie die Modellleistung mit Prompting
Hier sind einige Tipps, wie Sie qualitativ hochwertige Ausgaben erhalten:
- Geben Sie einfache, klar definierte Aufgaben an und geben Sie explizite Anweisungen für jeden Schritt.
- Claude geht manchmal davon aus, dass seine Aktionen bestimmte Ergebnisse haben, ohne deren Ergebnisse explizit zu überprüfen. Um dies zu verhindern, können Sie Claude mit
Nach jedem Schritt machen Sie einen Screenshot und bewerten Sie sorgfältig, ob Sie das richtige Ergebnis erzielt haben. Zeigen Sie Ihr Denken explizit: "Ich habe Schritt X bewertet..." Wenn nicht korrekt, versuchen Sie es erneut. Erst wenn Sie bestätigen, dass ein Schritt korrekt ausgeführt wurde, sollten Sie zum nächsten übergehen.
auffordern. - Einige UI-Elemente (wie Dropdowns und Bildlaufleisten) können für Claude schwierig zu manipulieren sein, wenn Mausbewegungen verwendet werden. Wenn Sie dies erleben, versuchen Sie, das Modell aufzufordern, Tastenkombinationen zu verwenden.
- Für wiederholbare Aufgaben oder UI-Interaktionen fügen Sie Beispielscreenshots und Tool-Aufrufe erfolgreicher Ergebnisse in Ihre Aufforderung ein.
- Wenn Sie das Modell anmelden müssen, geben Sie ihm den Benutzernamen und das Passwort in Ihrer Aufforderung innerhalb von XML-Tags wie
<robot_credentials>
an. Die Verwendung der Computernutzung innerhalb von Anwendungen, die eine Anmeldung erfordern, erhöht das Risiko unerwünschter Ergebnisse aufgrund von Prompt-Injektionen. Bitte lesen Sie unseren Leitfaden zur Abschwächung von Prompt-Injektionen, bevor Sie dem Modell Anmeldeinformationen zur Verfügung stellen.
Wenn Sie wiederholt auf eine klare Reihe von Problemen stoßen oder im Voraus wissen, welche Aufgaben Claude erledigen muss, verwenden Sie die System-Aufforderung, um Claude explizite Tipps oder Anweisungen dafür zu geben, wie die Aufgaben erfolgreich erledigt werden können.
System-Aufforderungen
Wenn eines der von Anthropic definierten Tools über die Anthropic-API angefordert wird, wird eine computernutzungsspezifische System-Aufforderung generiert. Sie ähnelt der Tool-Verwendungs-System-Aufforderung, beginnt aber mit:
Sie haben Zugriff auf eine Reihe von Funktionen, die Sie verwenden können, um die Frage des Benutzers zu beantworten. Dazu gehört der Zugriff auf eine abgeschirmte Computerumgebung. Sie haben DERZEIT NICHT die Möglichkeit, Dateien zu inspizieren oder mit externen Ressourcen zu interagieren, außer durch Aufrufen der unten stehenden Funktionen.
Wie bei der regulären Tool-Verwendung wird das vom Benutzer bereitgestellte system_prompt
-Feld weiterhin respektiert und bei der Erstellung der kombinierten System-Aufforderung verwendet.
Verstehen Sie die von Anthropic definierten Tools
Da es sich um eine Beta-Version handelt, können sich diese Tool-Definitionen ändern.
Wir haben eine Reihe von Tools bereitgestellt, mit denen Claude Computer effektiv nutzen kann. Wenn Sie ein von Anthropic definiertes Tool angeben, sind die Felder description
und tool_schema
nicht erforderlich oder erlaubt.
Von Anthropic definierte Tools werden vom Benutzer ausgeführt
Von Anthropic definierte Tools werden von Anthropic definiert, aber Sie müssen die Ergebnisse des Tools explizit auswerten und die tool_results
an Claude zurückgeben. Wie bei jedem Tool führt das Modell das Tool nicht automatisch aus.
Derzeit bieten wir 3 von Anthropic definierte Tools an:
{ "type": "computer_20241022", "name": "computer" }
{ "type": "text_editor_20241022", "name": "str_replace_editor" }
{ "type": "bash_20241022", "name": "bash" }
Das Feld type
identifiziert das Tool und seine Parameter für die Validierung, das Feld name
ist der dem Modell angezeigte Tool-Name.
Wenn Sie das Modell auffordern möchten, eines dieser Tools zu verwenden, können Sie das Tool explizit mit dem Feld name
angeben. Der Feldname name
muss innerhalb der Tool-Liste eindeutig sein; Sie können kein Tool mit demselben Namen wie ein von Anthropic definiertes Tool in demselben API-Aufruf definieren.
Wir empfehlen nicht, Tools mit den Namen von Anthropic-definierten Tools zu definieren. Auch wenn Sie Tools mit diesen Namen neu definieren können (solange der Tool-Name in Ihrem tools
-Block eindeutig ist), kann dies zu einer Leistungsminderung des Modells führen.
Kombinieren Sie die Computernutzung mit anderen Tools
Sie können die reguläre Tool-Verwendung mit den von Anthropic definierten Tools für die Computernutzung kombinieren.
Erstellen Sie eine benutzerdefinierte Computernutzungsumgebung
Die Referenzimplementierung soll Ihnen den Einstieg in die Computernutzung erleichtern. Sie enthält alle Komponenten, die Claude benötigt, um einen Computer zu nutzen. Sie können jedoch Ihre eigene Umgebung für die Computernutzung erstellen, um Ihre Bedürfnisse zu erfüllen. Sie benötigen:
- Eine virtualisierte oder containerisierte Umgebung, die für die Computernutzung mit Claude geeignet ist
- Eine Implementierung von mindestens einem der von Anthropic definierten Computernutzungs-Tools
- Eine Agent-Schleife, die mit der Anthropic-API interagiert und die
tool_use
-Ergebnisse mit Ihren Tool-Implementierungen ausführt - Eine API oder Benutzeroberfläche, die die Benutzereingabe zum Starten der Agent-Schleife ermöglicht
Verstehen Sie die Einschränkungen der Computernutzung
Die Computernutzungsfunktionalität befindet sich in der Betaphase. Obwohl die Fähigkeiten von Claude auf dem neuesten Stand sind, sollten Entwickler ihre Einschränkungen kennen:
- Latenz: Die aktuelle Latenz der Computernutzung für Mensch-KI-Interaktionen kann im Vergleich zu regulären menschengesteuerten Computeraktionen zu langsam sein. Wir empfehlen, sich auf Anwendungsfälle zu konzentrieren, bei denen Geschwindigkeit nicht entscheidend ist (z. B. Sammeln von Hintergrundinformationen, automatisiertes Softwaretesten) in vertrauenswürdigen Umgebungen.
- Genauigkeit und Zuverlässigkeit der Computervision: Claude kann Fehler machen oder halluzinieren, wenn es spezifische Koordinaten für Aktionen ausgibt.
- Genauigkeit und Zuverlässigkeit der Tool-Auswahl: Claude kann Fehler machen oder halluzinieren, wenn es Tools für die Generierung von Aktionen auswählt oder unerwartete Aktionen zur Problemlösung ausführt. Außerdem kann die Zuverlässigkeit bei der Interaktion mit Nischenanwendungen oder mehreren Anwendungen gleichzeitig geringer sein. Wir empfehlen, das Modell sorgfältig aufzufordern, wenn komplexe Aufgaben angefordert werden.
- Zuverlässigkeit des Scrollens: Das Scrollen kann in der aktuellen Erfahrung unzuverlässig sein, und das Modell scrollt möglicherweise nicht zuverlässig bis zum Ende einer Seite. Das Scrollverhalten kann durch Tastaturkürzeln (PgUp/PgDown) verbessert werden.
- Interaktion mit Tabellenkalkulationen: Mausklicks für die Interaktion mit Tabellenkalkulationen sind unzuverlässig. Die Zellauswahl funktioniert möglicherweise nicht immer wie erwartet. Dies kann durch Aufforderung des Modells zur Verwendung von Pfeiltasten abgemildert werden.
- Kontoerstellung und Inhaltserstellung auf sozialen und Kommunikationsplattformen: Obwohl Claude Websites besuchen wird, beschränken wir seine Möglichkeit, Konten zu erstellen oder Inhalte zu erstellen und zu teilen oder sich anderweitig als Mensch auszugeben, auf Social-Media-Websites und Plattformen. Wir können diese Funktion in Zukunft aktualisieren.
- Schwachstellen: Schwachstellen wie Jailbreaking oder Prompt-Injektionen können bei Frontier-KI-Systemen, einschließlich der Beta-Computernutzungs-API, bestehen bleiben. In manchen Fällen folgt Claude Anweisungen, die in Inhalten enthalten sind, manchmal sogar im Widerspruch zu den Anweisungen des Benutzers. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern die Anweisungen des Benutzers außer Kraft setzen oder dazu führen, dass Claude Fehler macht. Wir empfehlen: a. Die Computernutzung auf vertrauenswürdige Umgebungen wie virtuelle Maschinen oder Container mit minimalen Berechtigungen zu beschränken b. Zu vermeiden, der Computernutzung Zugriff auf sensible Konten oder Daten ohne strenge Überwachung zu geben c. Endbenutzer über relevante Risiken zu informieren und ihre Zustimmung einzuholen, bevor Sie die für die Computernutzungsfunktionen in Ihren Anwendungen erforderlichen Berechtigungen aktivieren oder anfordern
- Unangemessene oder illegale Aktionen: Gemäß den Nutzungsbedingungen von Anthropic dürfen Sie die Computernutzung nicht einsetzen, um Gesetze oder unsere Richtlinie für akzeptable Nutzung zu verletzen.
Überprüfen und verifizieren Sie immer sorgfältig die Computernutzungsaktionen und -protokolle von Claude. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Benutzerinformationen erfordern, ohne menschliche Aufsicht.
Preisgestaltung
Siehe die Tool-Verwendungs-Preisgestaltungsdokumentation für eine detaillierte Erklärung, wie Claude Tool Use API-Anfragen bepreist werden.
Wie bei allen anderen Claude-API-Anfragen werden auch Computernutzungsanfragen genauso bepreist.
Wir fügen außerdem automatisch eine spezielle System-Aufforderung für das Modell hinzu, die die Computernutzung ermöglicht.
Modell | Tool-Auswahl | Token-Anzahl der System-Aufforderung |
---|---|---|
Claude 3.5 Sonnet (neu) | auto any , tool | 466 Token 499 Token |
Zusätzlich zu den Basis-Token werden die folgenden zusätzlichen Eingabe-Token für die von Anthropic definierten Tools benötigt:
Tool | Zusätzliche Eingabe-Token |
---|---|
computer_20241022 | 683 Token |
text_editor_20241022 | 700 Token |
bash_20241022 | 245 Token |