Claude kann über das Computer-Use-Tool mit Computerumgebungen interagieren, das Screenshot-Funktionen und Maus-/Tastatursteuerung für autonome Desktop-Interaktion bietet.

Computer Use befindet sich derzeit in der Beta-Phase und erfordert einen Beta-Header:

  • "computer-use-2025-01-24" (Claude 4 und 3.7 Modelle)
  • "computer-use-2024-10-22" (Claude Sonnet 3.5)

Überblick

Computer Use ist eine Beta-Funktion, die es Claude ermöglicht, mit Desktop-Umgebungen zu interagieren. Dieses Tool bietet:

  • Screenshot-Erfassung: Sehen, was aktuell auf dem Bildschirm angezeigt wird
  • Maussteuerung: Klicken, Ziehen und Bewegen des Cursors
  • Tastatureingabe: Text eingeben und Tastenkombinationen verwenden
  • Desktop-Automatisierung: Mit jeder Anwendung oder Benutzeroberfläche interagieren

Während Computer Use mit anderen Tools wie bash und Texteditor für umfassendere Automatisierungs-Workflows erweitert werden kann, bezieht sich Computer Use speziell auf die Fähigkeit des Computer-Use-Tools, Desktop-Umgebungen zu sehen und zu steuern.

Modellkompatibilität

Computer Use ist für die folgenden Claude-Modelle verfügbar:

ModellTool-VersionBeta-Flag
Claude 4 Opus & Sonnetcomputer_20250124computer-use-2025-01-24
Claude Sonnet 3.7computer_20250124computer-use-2025-01-24
Claude Sonnet 3.5 (neu)computer_20241022computer-use-2024-10-22

Claude 4 Modelle verwenden aktualisierte Tool-Versionen, die für die neue Architektur optimiert sind. Claude Sonnet 3.7 führt zusätzliche Funktionen ein, einschließlich der Thinking-Funktion für mehr Einblick in den Denkprozess des Modells.

Sicherheitsüberlegungen

Computer Use ist eine Beta-Funktion mit einzigartigen Risiken, die sich von Standard-API-Funktionen unterscheiden. Diese Risiken sind bei der Interaktion mit dem Internet erhöht. Um Risiken zu minimieren, sollten Sie Vorsichtsmaßnahmen treffen wie:

  1. Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Berechtigungen, um direkte Systemangriffe oder Unfälle zu verhindern.
  2. Vermeiden Sie es, dem Modell Zugang zu sensiblen Daten wie Konto-Anmeldeinformationen zu geben, um Informationsdiebstahl zu verhindern.
  3. Beschränken Sie den Internetzugang auf eine Allowlist von Domains, um die Exposition gegenüber bösartigen Inhalten zu reduzieren.
  4. Bitten Sie einen Menschen, Entscheidungen zu bestätigen, die zu bedeutsamen realen Konsequenzen führen können, sowie alle Aufgaben, die eine ausdrückliche Zustimmung erfordern, wie das Akzeptieren von Cookies, die Durchführung von Finanztransaktionen oder die Zustimmung zu Nutzungsbedingungen.

Unter bestimmten Umständen wird Claude Befehle befolgen, die in Inhalten gefunden werden, auch wenn sie mit den Anweisungen des Benutzers in Konflikt stehen. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern Anweisungen überschreiben oder Claude zu Fehlern veranlassen. Wir empfehlen, Vorsichtsmaßnahmen zu treffen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt Injection zu vermeiden.

Wir haben das Modell trainiert, diesen Prompt Injections zu widerstehen und eine zusätzliche Verteidigungsschicht hinzugefügt. Wenn Sie unsere Computer-Use-Tools verwenden, führen wir automatisch Klassifikatoren auf Ihren Prompts aus, um potenzielle Instanzen von Prompt Injections zu kennzeichnen. Wenn diese Klassifikatoren potenzielle Prompt Injections in Screenshots identifizieren, werden sie das Modell automatisch dazu veranlassen, eine Benutzerbestätigung zu verlangen, bevor sie mit der nächsten Aktion fortfahren. Wir erkennen an, dass dieser zusätzliche Schutz nicht für jeden Anwendungsfall ideal sein wird (zum Beispiel Anwendungsfälle ohne einen Menschen in der Schleife), also wenn Sie sich abmelden und es ausschalten möchten, kontaktieren Sie uns bitte.

Wir empfehlen dennoch, Vorsichtsmaßnahmen zu treffen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt Injection zu vermeiden.

Schließlich informieren Sie bitte Endbenutzer über relevante Risiken und holen Sie deren Zustimmung ein, bevor Sie Computer Use in Ihren eigenen Produkten aktivieren.

Computer Use Referenzimplementierung

Starten Sie schnell mit unserer Computer Use Referenzimplementierung, die eine Web-Oberfläche, Docker-Container, Beispiel-Tool-Implementierungen und eine Agent-Schleife enthält.

Hinweis: Die Implementierung wurde aktualisiert, um neue Tools für sowohl Claude 4 als auch Claude Sonnet 3.7 zu enthalten. Stellen Sie sicher, dass Sie die neueste Version des Repos ziehen, um auf diese neuen Funktionen zuzugreifen.

Bitte verwenden Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben - wir können es kaum erwarten, von Ihnen zu hören!

Schnellstart

So starten Sie mit Computer Use:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",  # oder ein anderes kompatibles Modell
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Speichere ein Bild einer Katze auf meinem Desktop."}],
    betas=["computer-use-2025-01-24"]
)
print(response)

Beta-Header-Anforderungen:

  • Claude 4 und Sonnet 3.7: Beta-Header nur für das Computer-Use-Tool erforderlich
  • Claude Sonnet 3.5: Beta-Header für Computer-, Bash- und Texteditor-Tools erforderlich

Das obige Beispiel zeigt alle drei Tools zusammen verwendet, was den Beta-Header für jedes Claude-Modell erfordert, da es das Computer-Use-Tool enthält.


Wie Computer Use funktioniert

1. Stellen Sie Claude das Computer-Use-Tool und einen Benutzer-Prompt zur Verfügung

  • Fügen Sie das Computer-Use-Tool (und optional andere Tools) zu Ihrer API-Anfrage hinzu.
  • Fügen Sie einen Benutzer-Prompt hinzu, der Desktop-Interaktion erfordert, z.B. “Speichere ein Bild einer Katze auf meinem Desktop.”

2. Claude entscheidet, das Computer-Use-Tool zu verwenden

  • Claude bewertet, ob das Computer-Use-Tool bei der Anfrage des Benutzers helfen kann.
  • Falls ja, erstellt Claude eine ordnungsgemäß formatierte Tool-Use-Anfrage.
  • Die API-Antwort hat einen stop_reason von tool_use, der Claudes Absicht signalisiert.

3. Tool-Input extrahieren, das Tool auf einem Computer bewerten und Ergebnisse zurückgeben

  • Auf Ihrer Seite extrahieren Sie den Tool-Namen und Input aus Claudes Anfrage.
  • Verwenden Sie das Tool auf einem Container oder einer virtuellen Maschine.
  • Setzen Sie die Unterhaltung mit einer neuen user-Nachricht fort, die einen tool_result-Inhaltsblock enthält.

4. Claude ruft weiterhin Computer-Use-Tools auf, bis die Aufgabe abgeschlossen ist

  • Claude analysiert die Tool-Ergebnisse, um zu bestimmen, ob weitere Tool-Verwendung benötigt wird oder die Aufgabe abgeschlossen wurde.
  • Wenn Claude entscheidet, dass es ein weiteres Tool benötigt, antwortet es mit einem weiteren tool_use stop_reason und Sie sollten zu Schritt 3 zurückkehren.
  • Andernfalls erstellt es eine Textantwort an den Benutzer.

Wir bezeichnen die Wiederholung der Schritte 3 und 4 ohne Benutzereingabe als “Agent-Schleife” - d.h. Claude antwortet mit einer Tool-Use-Anfrage und Ihre Anwendung antwortet Claude mit den Ergebnissen der Bewertung dieser Anfrage.

Die Computing-Umgebung

Computer Use erfordert eine sandboxed Computing-Umgebung, in der Claude sicher mit Anwendungen und dem Web interagieren kann. Diese Umgebung umfasst:

  1. Virtuelles Display: Ein virtueller X11-Display-Server (mit Xvfb), der die Desktop-Oberfläche rendert, die Claude durch Screenshots sehen und mit Maus-/Tastaturaktionen steuern wird.

  2. Desktop-Umgebung: Eine leichtgewichtige UI mit Window Manager (Mutter) und Panel (Tint2) unter Linux, die eine konsistente grafische Oberfläche für Claude zur Interaktion bietet.

  3. Anwendungen: Vorinstallierte Linux-Anwendungen wie Firefox, LibreOffice, Texteditoren und Dateimanager, die Claude zur Erledigung von Aufgaben verwenden kann.

  4. Tool-Implementierungen: Integrationscode, der Claudes abstrakte Tool-Anfragen (wie “Maus bewegen” oder “Screenshot machen”) in tatsächliche Operationen in der virtuellen Umgebung übersetzt.

  5. Agent-Schleife: Ein Programm, das die Kommunikation zwischen Claude und der Umgebung handhabt, Claudes Aktionen an die Umgebung sendet und die Ergebnisse (Screenshots, Befehlsausgaben) zurück an Claude gibt.

Wenn Sie Computer Use verwenden, verbindet sich Claude nicht direkt mit dieser Umgebung. Stattdessen:

  1. Erhält Ihre Anwendung Claudes Tool-Use-Anfragen
  2. Übersetzt sie in Aktionen in Ihrer Computing-Umgebung
  3. Erfasst die Ergebnisse (Screenshots, Befehlsausgaben, etc.)
  4. Gibt diese Ergebnisse an Claude zurück

Für Sicherheit und Isolation läuft die Referenzimplementierung all dies in einem Docker-Container mit entsprechenden Port-Mappings für die Anzeige und Interaktion mit der Umgebung.


Wie man Computer Use implementiert

Beginnen Sie mit unserer Referenzimplementierung

Wir haben eine Referenzimplementierung erstellt, die alles enthält, was Sie benötigen, um schnell mit Computer Use zu beginnen:

  • Eine containerisierte Umgebung, die für Computer Use mit Claude geeignet ist
  • Implementierungen der Computer-Use-Tools
  • Eine Agent-Schleife, die mit der Anthropic API interagiert und die Computer-Use-Tools ausführt
  • Eine Web-Oberfläche zur Interaktion mit dem Container, der Agent-Schleife und den Tools.

Die Multi-Agent-Schleife verstehen

Das Herzstück von Computer Use ist die “Agent-Schleife” - ein Zyklus, in dem Claude Tool-Aktionen anfordert, Ihre Anwendung sie ausführt und Ergebnisse an Claude zurückgibt. Hier ist ein vereinfachtes Beispiel:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Iterationslimit hinzufügen, um Endlosschleifen zu verhindern
):
    """
    Eine einfache Agent-Schleife für Claude Computer-Use-Interaktionen.

    Diese Funktion handhabt das Hin und Her zwischen:
    1. Senden von Benutzernachrichten an Claude
    2. Claude fordert die Verwendung von Tools an
    3. Ihre App führt diese Tools aus
    4. Senden von Tool-Ergebnissen zurück an Claude
    """
    # Tools und API-Parameter einrichten
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Tools konfigurieren - Sie sollten diese bereits anderswo initialisiert haben
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Haupt-Agent-Schleife (mit Iterationslimit zur Verhinderung von ausufernden API-Kosten)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Optionalen Thinking-Parameter einrichten (für Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Claude API aufrufen
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Claudes Antwort zur Unterhaltungshistorie hinzufügen
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Prüfen, ob Claude Tools verwendet hat
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # In einer echten App würden Sie das Tool hier ausführen
                # Zum Beispiel: result = run_tool(block.name, block.input)
                result = {"result": "Tool erfolgreich ausgeführt"}

                # Ergebnis für Claude formatieren
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Wenn keine Tools verwendet wurden, ist Claude fertig - finale Nachrichten zurückgeben
        if not tool_results:
            return messages

        # Tool-Ergebnisse zu Nachrichten für die nächste Iteration mit Claude hinzufügen
        messages.append({"role": "user", "content": tool_results})

Die Schleife läuft weiter, bis entweder Claude ohne Tool-Anfrage antwortet (Aufgabenabschluss) oder das maximale Iterationslimit erreicht wird. Diese Schutzmaßnahme verhindert potenzielle Endlosschleifen, die zu unerwarteten API-Kosten führen könnten.

Bei der Verwendung des Computer-Use-Tools müssen Sie das entsprechende Beta-Flag für Ihre Modellversion einschließen:

Hinweis: Für Claude 4 und Sonnet 3.7 ist das Beta-Flag nur für das Computer-Use-Tool erforderlich. Für Claude Sonnet 3.5 ist das Beta-Flag für Computer-, Bash- und Texteditor-Tools erforderlich.

Wir empfehlen, die Referenzimplementierung auszuprobieren, bevor Sie den Rest dieser Dokumentation lesen.

Modellleistung mit Prompting optimieren

Hier sind einige Tipps, wie Sie die besten Qualitätsausgaben erhalten:

  1. Spezifizieren Sie einfache, gut definierte Aufgaben und geben Sie explizite Anweisungen für jeden Schritt.
  2. Claude nimmt manchmal Ergebnisse seiner Aktionen an, ohne ihre Resultate explizit zu überprüfen. Um dies zu verhindern, können Sie Claude mit folgendem Prompt versehen: Nach jedem Schritt mache einen Screenshot und bewerte sorgfältig, ob du das richtige Ergebnis erreicht hast. Zeige explizit dein Denken: "Ich habe Schritt X bewertet..." Falls nicht korrekt, versuche es erneut. Nur wenn du bestätigst, dass ein Schritt korrekt ausgeführt wurde, solltest du zum nächsten übergehen.
  3. Einige UI-Elemente (wie Dropdowns und Scrollbalken) könnten für Claude schwierig zu manipulieren sein mit Mausbewegungen. Wenn Sie dies erleben, versuchen Sie, das Modell zu veranlassen, Tastenkombinationen zu verwenden.
  4. Für wiederholbare Aufgaben oder UI-Interaktionen fügen Sie Beispiel-Screenshots und Tool-Aufrufe erfolgreicher Ergebnisse in Ihren Prompt ein.
  5. Wenn Sie möchten, dass sich das Modell anmeldet, geben Sie ihm den Benutzernamen und das Passwort in Ihrem Prompt in XML-Tags wie <robot_credentials>. Die Verwendung von Computer Use in Anwendungen, die eine Anmeldung erfordern, erhöht das Risiko schlechter Ergebnisse aufgrund von Prompt Injection. Bitte lesen Sie unseren Leitfaden zur Minderung von Prompt Injections, bevor Sie dem Modell Anm eldedaten zur Verfügung stellen.

Wenn Sie wiederholt auf eine klare Reihe von Problemen stoßen oder im Voraus die Aufgaben kennen, die Claude erledigen muss, verwenden Sie den System-Prompt, um Claude explizite Tipps oder Anweisungen zu geben, wie die Aufgaben erfolgreich erledigt werden können.

System-Prompts

Wenn eines der von Anthropic definierten Tools über die Anthropic API angefordert wird, wird ein Computer-Use-spezifischer System-Prompt generiert. Er ist ähnlich dem Tool-Use-System-Prompt, beginnt aber mit:

Sie haben Zugang zu einer Reihe von Funktionen, die Sie verwenden können, um die Frage des Benutzers zu beantworten. Dies umfasst den Zugang zu einer sandboxed Computing-Umgebung. Sie haben derzeit NICHT die Fähigkeit, Dateien zu inspizieren oder mit externen Ressourcen zu interagieren, außer durch das Aufrufen der unten stehenden Funktionen.

Wie bei der regulären Tool-Verwendung wird das vom Benutzer bereitgestellte system_prompt-Feld weiterhin respektiert und bei der Konstruktion des kombinierten System-Prompts verwendet.

Verfügbare Aktionen

Das Computer-Use-Tool unterstützt diese Aktionen:

Grundaktionen (alle Versionen)

  • screenshot - Das aktuelle Display erfassen
  • left_click - An Koordinaten [x, y] klicken
  • type - Textstring eingeben
  • key - Taste oder Tastenkombination drücken (z.B. “ctrl+s”)
  • mouse_move - Cursor zu Koordinaten bewegen

Erweiterte Aktionen (computer_20250124) Verfügbar in Claude 4 und Claude Sonnet 3.7:

  • scroll - In jede Richtung mit Mengensteuerung scrollen
  • left_click_drag - Klicken und zwischen Koordinaten ziehen
  • right_click, middle_click - Zusätzliche Maustasten
  • double_click, triple_click - Mehrfachklicks
  • left_mouse_down, left_mouse_up - Feinkörnige Klicksteuerung
  • hold_key - Eine Taste halten, während andere Aktionen ausgeführt werden
  • wait - Zwischen Aktionen pausieren

Tool-Parameter

ParameterErforderlichBeschreibung
typeJaTool-Version (computer_20250124 oder computer_20241022)
nameJaMuss “computer” sein
display_width_pxJaDisplay-Breite in Pixeln
display_height_pxJaDisplay-Höhe in Pixeln
display_numberNeinDisplay-Nummer für X11-Umgebungen

Halten Sie die Display-Auflösung bei oder unter 1280x800 (WXGA) für beste Leistung. Höhere Auflösungen können Genauigkeitsprobleme aufgrund von Bildgrößenänderung verursachen.

Wichtig: Das Computer-Use-Tool muss explizit von Ihrer Anwendung ausgeführt werden - Claude kann es nicht direkt ausführen. Sie sind verantwortlich für die Implementierung der Screenshot-Erfassung, Mausbewegungen, Tastatureingaben und anderen Aktionen basierend auf Claudes Anfragen.

Thinking-Fähigkeit in Claude 4 und Claude Sonnet 3.7 aktivieren

Claude Sonnet 3.7 führte eine neue “Thinking”-Fähigkeit ein, die es Ihnen ermöglicht, den Denkprozess des Modells zu sehen, während es komplexe Aufgaben bearbeitet. Diese Funktion hilft Ihnen zu verstehen, wie Claude ein Problem angeht und kann besonders wertvoll für Debugging oder Bildungszwecke sein.

Um Thinking zu aktivieren, fügen Sie einen thinking-Parameter zu Ihrer API-Anfrage hinzu:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Der budget_tokens-Parameter spezifiziert, wie viele Tokens Claude für das Denken verwenden kann. Dies wird von Ihrem gesamten max_tokens-Budget abgezogen.

Wenn Thinking aktiviert ist, gibt Claude seinen Denkprozess als Teil der Antwort zurück, was Ihnen helfen kann:

  1. Den Entscheidungsprozess des Modells zu verstehen
  2. Potenzielle Probleme oder Missverständnisse zu identifizieren
  3. Von Claudes Problemlösungsansatz zu lernen
  4. Mehr Einblick in komplexe mehrstufige Operationen zu erhalten

Hier ist ein Beispiel, wie Thinking-Output aussehen könnte:

[Thinking]
Ich muss ein Bild einer Katze auf dem Desktop speichern. Lassen Sie mich das in Schritte aufteilen:

1. Zuerst mache ich einen Screenshot, um zu sehen, was auf dem Desktop ist
2. Dann suche ich nach einem Webbrowser, um nach Katzenbildern zu suchen
3. Nachdem ich ein geeignetes Bild gefunden habe, muss ich es auf dem Desktop speichern

Lassen Sie mich mit einem Screenshot beginnen, um zu sehen, was verfügbar ist...

Computer Use mit anderen Tools erweitern

Das Computer-Use-Tool kann mit anderen Tools kombiniert werden, um leistungsfähigere Automatisierungs-Workflows zu erstellen. Dies ist besonders nützlich, wenn Sie:

  • Systembefehle ausführen müssen (Bash-Tool)
  • Konfigurationsdateien oder Skripte bearbeiten müssen (Texteditor-Tool)
  • Mit benutzerdefinierten APIs oder Services integrieren müssen (benutzerdefinierte Tools)
curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Das aktuelle Wetter an einem bestimmten Ort abrufen",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "Die Stadt und der Staat, z.B. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "Die Temperatureinheit, entweder 'celsius' oder 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Finde Flüge von San Francisco zu einem Ort mit wärmerem Wetter."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Eine benutzerdefinierte Computer-Use-Umgebung erstellen

Die Referenzimplementierung soll Ihnen helfen, mit Computer Use zu beginnen. Sie enthält alle Komponenten, die benötigt werden, damit Claude einen Computer verwenden kann. Sie können jedoch Ihre eigene Umgebung für Computer Use erstellen, um Ihren Bedürfnissen zu entsprechen. Sie benötigen:

  • Eine virtualisierte oder containerisierte Umgebung, die für Computer Use mit Claude geeignet ist
  • Eine Implementierung von mindestens einem der von Anthropic definierten Computer-Use-Tools
  • Eine Agent-Schleife, die mit der Anthropic API interagiert und die tool_use-Ergebnisse mit Ihren Tool-Implementierungen ausführt
  • Eine API oder UI, die Benutzereingaben ermöglicht, um die Agent-Schleife zu starten

Das Computer-Use-Tool implementieren

Das Computer-Use-Tool wird als schema-loses Tool implementiert. Bei der Verwendung dieses Tools müssen Sie kein Input-Schema bereitstellen wie bei anderen Tools; das Schema ist in Claudes Modell eingebaut und kann nicht modifiziert werden.

1

Ihre Computing-Umgebung einrichten

Erstellen Sie ein virtuelles Display oder verbinden Sie sich mit einem bestehenden Display, mit dem Claude interagieren wird. Dies beinhaltet typischerweise das Einrichten von Xvfb (X Virtual Framebuffer) oder ähnlicher Technologie.

2

Action-Handler implementieren

Erstellen Sie Funktionen zur Behandlung jedes Action-Typs, den Claude anfordern könnte:

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... andere Aktionen behandeln
3

Claudes Tool-Aufrufe verarbeiten

Tool-Aufrufe aus Claudes Antworten extrahieren und ausführen:

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Ergebnis an Claude zurückgeben
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }
4

Die Agent-Schleife implementieren

Eine Schleife erstellen, die läuft, bis Claude die Aufgabe abschließt:

while True:
    response = client.beta.messages.create(...)
    
    # Prüfen, ob Claude Tools verwendet hat
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Keine weitere Tool-Verwendung, Aufgabe abgeschlossen
        break
        
    # Unterhaltung mit Tool-Ergebnissen fortsetzen
    messages.append({"role": "user", "content": tool_results})

Fehler behandeln

Bei der Implementierung des Computer-Use-Tools können verschiedene Fehler auftreten. So behandeln Sie sie:

Implementierungs-Best-Practices befolgen


Computer-Use-Einschränkungen verstehen

Die Computer-Use-Funktionalität befindet sich in der Beta-Phase. Während Claudes Fähigkeiten hochmodern sind, sollten Entwickler sich ihrer Einschränkungen bewusst sein:

  1. Latenz: Die aktuelle Computer-Use-Latenz für Mensch-KI-Interaktionen könnte im Vergleich zu regulären menschlich gesteuerten Computeraktionen zu langsam sein. Wir empfehlen, sich auf Anwendungsfälle zu konzentrieren, bei denen Geschwindigkeit nicht kritisch ist (z.B. Hintergrundinformationssammlung, automatisierte Softwaretests) in vertrauenswürdigen Umgebungen.
  2. Computer-Vision-Genauigkeit und -Zuverlässigkeit: Claude kann Fehler machen oder halluzinieren, wenn es spezifische Koordinaten ausgibt, während es Aktionen generiert. Claude Sonnet 3.7 führt die Thinking-Fähigkeit ein, die Ihnen helfen kann, das Denken des Modells zu verstehen und potenzielle Probleme zu identifizieren.
  3. Tool-Auswahl-Genauigkeit und -Zuverlässigkeit: Claude kann Fehler machen oder halluzinieren, wenn es Tools auswählt, während es Aktionen generiert, oder unerwartete Aktionen zur Problemlösung ergreifen. Zusätzlich kann die Zuverlässigkeit niedriger sein, wenn es mit Nischen-Anwendungen oder mehreren Anwendungen gleichzeitig interagiert. Wir empfehlen, dass Benutzer das Modell sorgfältig prompten, wenn sie komplexe Aufgaben anfordern.
  4. Scroll-Zuverlässigkeit: Während Claude Sonnet 3.5 (neu) Einschränkungen beim Scrollen hatte, führt Claude Sonnet 3.7 dedizierte Scroll-Aktionen mit Richtungssteuerung ein, die die Zuverlässigkeit verbessern. Das Modell kann jetzt explizit in jede Richtung (oben/unten/links/rechts) um einen bestimmten Betrag scrollen.
  5. Tabellenkalkulations-Interaktion: Mausklicks für Tabellenkalkulations-Interaktion haben sich in Claude Sonnet 3.7 mit der Hinzufügung präziserer Maussteuerungsaktionen wie left_mouse_down, left_mouse_up und neuer Modifier-Tasten-Unterstützung verbessert. Zellenauswahl kann zuverlässiger sein, indem diese feinkörnigen Steuerungen verwendet und Modifier-Tasten mit Klicks kombiniert werden.
  6. Kontoerstellung und Inhaltsgenerierung auf sozialen und Kommunikationsplattformen: Während Claude Websites besucht, beschränken wir seine Fähigkeit, Konten zu erstellen oder Inhalte zu generieren und zu teilen oder anderweitig menschliche Nachahmung auf Social-Media-Websites und -Plattformen zu betreiben. Wir können diese Fähigkeit in Zukunft aktualisieren.
  7. Schwachstellen: Schwachstellen wie Jailbreaking oder Prompt Injection können bei Frontier-KI-Systemen bestehen bleiben, einschließlich der Beta-Computer-Use-API. Unter bestimmten Umständen wird Claude Befehle befolgen, die in Inhalten gefunden werden, manchmal sogar im Konflikt mit den Anweisungen des Benutzers. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern Anweisungen überschreiben oder Claude zu Fehlern veranlassen. Wir empfehlen: a. Computer Use auf vertrauenswürdige Umgebungen wie virtuelle Maschinen oder Container mit minimalen Berechtigungen zu beschränken b. Computer Use keinen Zugang zu sensiblen Konten oder Daten ohne strenge Aufsicht zu geben c. Endbenutzer über relevante Risiken zu informieren und deren Zustimmung einzuholen, bevor Computer-Use-Funktionen in Ihren Anwendungen aktiviert oder Berechtigungen angefordert werden, die für Computer-Use-Funktionen erforderlich sind
  8. Unangemessene oder illegale Aktionen: Gemäß Anthropics Nutzungsbedingungen dürfen Sie Computer Use nicht verwenden, um Gesetze oder unsere Acceptable Use Policy zu verletzen.

Überprüfen und verifizieren Sie immer sorgfältig Claudes Computer-Use-Aktionen und -Protokolle. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Benutzerinformationen ohne menschliche Aufsicht erfordern.


Preise

Computer use follows the standard tool use pricing. When using the computer use tool:

System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt

Computer use tool token usage:

ModelInput tokens per tool definition
Claude 4 / Sonnet 3.7735 tokens
Claude Sonnet 3.5683 tokens

Additional token consumption:

  • Screenshot images (see Vision pricing)
  • Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Nächste Schritte