Claude 3.7 Sonnet und Claude 3.5 Sonnet (neu) können mit Tools interagieren, die eine Desktop-Computerumgebung steuern können. Claude 3.7 Sonnet führt zusätzliche Tools ein und ermöglicht die Aktivierung des Denkprozesses, wodurch Sie mehr Einblick in den Denkprozess des Modells erhalten.

Die Computernutzung ist eine Beta-Funktion. Bitte beachten Sie, dass die Computernutzung einzigartige Risiken birgt, die sich von Standard-API-Funktionen oder Chat-Schnittstellen unterscheiden. Diese Risiken erhöhen sich bei der Nutzung des Computers für Internetinteraktionen. Um Risiken zu minimieren, sollten Sie Vorsichtsmaßnahmen wie die folgenden in Betracht ziehen:

  1. Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Berechtigungen, um direkte Systemangriffe oder Unfälle zu verhindern.
  2. Vermeiden Sie es, dem Modell Zugriff auf sensible Daten wie Anmeldeinformationen zu geben, um Informationsdiebstahl zu verhindern.
  3. Beschränken Sie den Internetzugang auf eine Allowlist von Domains, um die Exposition gegenüber bösartigem Inhalt zu reduzieren.
  4. Lassen Sie einen Menschen Entscheidungen bestätigen, die zu bedeutenden realen Konsequenzen führen können, sowie alle Aufgaben, die eine ausdrückliche Zustimmung erfordern, wie das Akzeptieren von Cookies, die Ausführung von Finanztransaktionen oder die Zustimmung zu Nutzungsbedingungen.

Unter bestimmten Umständen wird Claude Befehle aus Inhalten befolgen, auch wenn diese den Anweisungen des Benutzers widersprechen. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern die Anweisungen überschreiben oder Claude dazu bringen, Fehler zu machen. Wir empfehlen, Vorsichtsmaßnahmen zu treffen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt-Injection zu vermeiden.

Wir haben das Modell darauf trainiert, diesen Prompt-Injections zu widerstehen, und haben eine zusätzliche Verteidigungsebene hinzugefügt. Wenn Sie unsere Computernutzungs-Tools verwenden, führen wir automatisch Klassifikatoren auf Ihren Prompts aus, um potenzielle Fälle von Prompt-Injections zu kennzeichnen. Wenn diese Klassifikatoren potenzielle Prompt-Injections in Screenshots identifizieren, werden sie das Modell automatisch dazu bringen, vor der nächsten Aktion um Benutzerbestätigung zu bitten. Wir erkennen, dass dieser zusätzliche Schutz nicht für jeden Anwendungsfall ideal ist (zum Beispiel für Anwendungsfälle ohne menschliche Beteiligung), daher können Sie sich abmelden und ihn ausschalten, indem Sie sich an uns wenden.

Wir empfehlen weiterhin, Vorsichtsmaßnahmen zu treffen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt-Injection zu vermeiden.

Bitte informieren Sie schließlich die Endbenutzer über relevante Risiken und holen Sie deren Einwilligung ein, bevor Sie die Computernutzung in Ihren eigenen Produkten aktivieren.

Computernutzung Referenzimplementierung

Starten Sie schnell mit unserer Computernutzungs-Referenzimplementierung, die eine Weboberfläche, Docker-Container, Beispiel-Tool-Implementierungen und eine Agentenschleife enthält.

Hinweis: Die Implementierung wurde aktualisiert, um neue Tools für Claude 3.7 Sonnet einzuschließen. Stellen Sie sicher, dass Sie die neueste Version des Repos abrufen, um auf diese neuen Funktionen zugreifen zu können.

Bitte nutzen Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben - wir können es kaum erwarten, von Ihnen zu hören!

Hier ist ein Beispiel, wie man Claude Computernutzungs-Tools über die Messages API zur Verfügung stellt:

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20241022",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20241022",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Wie die Computernutzung funktioniert

1. Stellen Sie Claude Computernutzungs-Tools und einen Benutzer-Prompt zur Verfügung

  • Fügen Sie von Anthropic definierte Computernutzungs-Tools zu Ihrer API-Anfrage hinzu.
  • Fügen Sie einen Benutzer-Prompt hinzu, der diese Tools benötigen könnte, z.B. “Speichere ein Bild einer Katze auf meinem Desktop.”

2. Claude entscheidet sich für die Verwendung eines Tools

  • Claude lädt die gespeicherten Computernutzungs-Tool-Definitionen und bewertet, ob Tools bei der Anfrage des Benutzers helfen können.
  • Wenn ja, erstellt Claude eine korrekt formatierte Tool-Nutzungsanfrage.
  • Die API-Antwort hat einen stop_reason von tool_use, der Claudes Absicht signalisiert.

3. Extrahieren Sie die Tool-Eingabe, führen Sie das Tool auf einem Computer aus und geben Sie die Ergebnisse zurück

  • Extrahieren Sie auf Ihrer Seite den Tool-Namen und die Eingabe aus Claudes Anfrage.
  • Verwenden Sie das Tool in einem Container oder einer virtuellen Maschine.
  • Setzen Sie das Gespräch mit einer neuen user-Nachricht fort, die einen tool_result-Inhaltsblock enthält.

4. Claude ruft weiterhin Computernutzungs-Tools auf, bis die Aufgabe abgeschlossen ist

  • Claude analysiert die Tool-Ergebnisse, um festzustellen, ob weitere Tool-Nutzung erforderlich ist oder die Aufgabe abgeschlossen wurde.
  • Wenn Claude entscheidet, dass es ein weiteres Tool benötigt, antwortet es mit einem weiteren tool_use stop_reason und Sie sollten zu Schritt 3 zurückkehren.
  • Andernfalls erstellt es eine Textantwort für den Benutzer.

Wir bezeichnen die Wiederholung der Schritte 3 und 4 ohne Benutzereingabe als “Agentenschleife” - d.h. Claude antwortet mit einer Tool-Nutzungsanfrage und Ihre Anwendung antwortet Claude mit den Ergebnissen der Auswertung dieser Anfrage.

Die Computerumgebung

Die Computernutzung erfordert eine sandboxed Computerumgebung, in der Claude sicher mit Anwendungen und dem Web interagieren kann. Diese Umgebung umfasst:

  1. Virtuelle Anzeige: Ein virtueller X11-Display-Server (mit Xvfb), der die Desktop-Schnittstelle rendert, die Claude durch Screenshots sehen und mit Maus-/Tastaturaktionen steuern wird.

  2. Desktop-Umgebung: Eine leichtgewichtige Benutzeroberfläche mit Fenstermanager (Mutter) und Panel (Tint2) unter Linux, die eine konsistente grafische Schnittstelle für Claude bereitstellt.

  3. Anwendungen: Vorinstallierte Linux-Anwendungen wie Firefox, LibreOffice, Texteditoren und Dateimanager, die Claude zur Erledigung von Aufgaben nutzen kann.

  4. Tool-Implementierungen: Integrationscode, der Claudes abstrakte Tool-Anfragen (wie “Maus bewegen” oder “Screenshot machen”) in tatsächliche Operationen in der virtuellen Umgebung übersetzt.

  5. Agentenschleife: Ein Programm, das die Kommunikation zwischen Claude und der Umgebung handhabt, Claudes Aktionen an die Umgebung sendet und die Ergebnisse (Screenshots, Befehlsausgaben) an Claude zurückgibt.

Wenn Sie die Computernutzung verwenden, verbindet sich Claude nicht direkt mit dieser Umgebung. Stattdessen:

  1. Empfängt Ihre Anwendung Claudes Tool-Nutzungsanfragen
  2. Übersetzt sie in Aktionen in Ihrer Computerumgebung
  3. Erfasst die Ergebnisse (Screenshots, Befehlsausgaben, etc.)
  4. Gibt diese Ergebnisse an Claude zurück

Aus Sicherheits- und Isolationsgründen läuft die Referenzimplementierung all dies innerhalb eines Docker-Containers mit entsprechenden Port-Mappings für die Anzeige und Interaktion mit der Umgebung.

[Fortsetzung folgt…]