Computernutzung (Beta)

Claude 4 Opus und Sonnet, zusammen mit Claude Sonnet 3.7 und Claude Sonnet 3.5 (neu), können mit Tools interagieren, die eine Computer-Desktop-Umgebung manipulieren können. Claude 4-Modelle verwenden aktualisierte Tool-Versionen, die für die neue Architektur optimiert sind. Claude Sonnet 3.7 führt zusätzliche Tools ein und ermöglicht es Ihnen, das Denken zu aktivieren, wodurch Sie mehr Einblick in den Denkprozess des Modells erhalten.

Die Computernutzung ist eine Beta-Funktion. Bitte beachten Sie, dass die Computernutzung einzigartige Risiken birgt, die sich von Standard-API-Funktionen oder Chat-Schnittstellen unterscheiden. Diese Risiken sind erhöht, wenn die Computernutzung für die Interaktion mit dem Internet verwendet wird. Um Risiken zu minimieren, sollten Sie Vorsichtsmaßnahmen wie die folgenden in Betracht ziehen:

Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Rechten, um direkte Systemangriffe oder Unfälle zu verhindern.
Vermeiden Sie es, dem Modell Zugriff auf sensible Daten wie Kontoanmeldeinformationen zu geben, um Informationsdiebstahl zu verhindern.
Beschränken Sie den Internetzugang auf eine Positivliste von Domains, um die Exposition gegenüber bösartigen Inhalten zu reduzieren.
Bitten Sie einen Menschen, Entscheidungen zu bestätigen, die zu bedeutenden realen Konsequenzen führen können, sowie alle Aufgaben, die eine ausdrückliche Zustimmung erfordern, wie das Akzeptieren von Cookies, die Ausführung von Finanztransaktionen oder die Zustimmung zu Nutzungsbedingungen.

Unter bestimmten Umständen befolgt Claude Befehle, die in Inhalten gefunden werden, auch wenn diese im Widerspruch zu den Anweisungen des Benutzers stehen. Beispielsweise können Claude-Anweisungen auf Webseiten oder in Bildern die Anweisungen überschreiben oder dazu führen, dass Claude Fehler macht. Wir empfehlen, Vorsichtsmaßnahmen zu ergreifen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt-Injection zu vermeiden.

Wir haben das Modell trainiert, diesen Prompt-Injections zu widerstehen, und haben eine zusätzliche Verteidigungsebene hinzugefügt. Wenn Sie unsere Computernutzungs-Tools verwenden, führen wir automatisch Klassifikatoren für Ihre Prompts aus, um potenzielle Fälle von Prompt-Injections zu kennzeichnen. Wenn diese Klassifikatoren potenzielle Prompt-Injections in Screenshots identifizieren, lenken sie das Modell automatisch so, dass es vor der nächsten Aktion um Benutzerbestätigung bittet. Wir erkennen an, dass dieser zusätzliche Schutz nicht für jeden Anwendungsfall ideal ist (z.B. Anwendungsfälle ohne einen Menschen in der Schleife), daher kontaktieren Sie uns bitte, wenn Sie sich abmelden und ihn ausschalten möchten kontaktieren Sie uns.

Wir empfehlen dennoch, Vorsichtsmaßnahmen zu ergreifen, um Claude von sensiblen Daten und Aktionen zu isolieren, um Risiken im Zusammenhang mit Prompt-Injection zu vermeiden.

Informieren Sie schließlich die Endbenutzer über relevante Risiken und holen Sie deren Zustimmung ein, bevor Sie die Computernutzung in Ihren eigenen Produkten aktivieren.

Referenzimplementierung für Computernutzung

Starten Sie schnell mit unserer Referenzimplementierung für Computernutzung, die eine Weboberfläche, Docker-Container, Beispiel-Tool-Implementierungen und eine Agent-Schleife enthält.

Hinweis: Die Implementierung wurde aktualisiert, um neue Tools sowohl für Claude 4 als auch für Claude Sonnet 3.7 zu enthalten. Stellen Sie sicher, dass Sie die neueste Version des Repos abrufen, um auf diese neuen Funktionen zuzugreifen.

Bitte verwenden Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben - wir können es kaum erwarten, von Ihnen zu hören!

Hier ist ein Beispiel, wie man Claude mithilfe der Messages API Computernutzungs-Tools zur Verfügung stellt:

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Wie die Computernutzung funktioniert

1. Stellen Sie Claude Computernutzungs-Tools und einen Benutzer-Prompt zur Verfügung

Fügen Sie von Anthropic definierte Computernutzungs-Tools zu Ihrer API-Anfrage hinzu.
Fügen Sie einen Benutzer-Prompt hinzu, der diese Tools benötigen könnte, z.B. “Speichere ein Bild einer Katze auf meinem Desktop.”

2. Claude entscheidet sich, ein Tool zu verwenden

Claude lädt die gespeicherten Definitionen der Computernutzungs-Tools und bewertet, ob Tools bei der Anfrage des Benutzers helfen können.
Falls ja, erstellt Claude eine korrekt formatierte Tool-Nutzungsanfrage.
Die API-Antwort hat einen stop_reason von tool_use, der Claudes Absicht signalisiert.

3. Extrahieren Sie die Tool-Eingabe, führen Sie das Tool auf einem Computer aus und geben Sie die Ergebnisse zurück

Auf Ihrer Seite extrahieren Sie den Tool-Namen und die Eingabe aus Claudes Anfrage.
Verwenden Sie das Tool auf einem Container oder einer virtuellen Maschine.
Setzen Sie die Konversation mit einer neuen user-Nachricht fort, die einen tool_result-Inhaltsblock enthält.

4. Claude ruft weiterhin Computernutzungs-Tools auf, bis die Aufgabe abgeschlossen ist

Claude analysiert die Tool-Ergebnisse, um festzustellen, ob weitere Tool-Nutzung erforderlich ist oder die Aufgabe abgeschlossen wurde.
Wenn Claude entscheidet, dass es ein weiteres Tool benötigt, antwortet es mit einem weiteren tool_use stop_reason und Sie sollten zu Schritt 3 zurückkehren.
Andernfalls erstellt es eine Textantwort für den Benutzer.

Wir bezeichnen die Wiederholung der Schritte 3 und 4 ohne Benutzereingabe als “Agent-Schleife” - d.h. Claude antwortet mit einer Tool-Nutzungsanfrage und Ihre Anwendung antwortet Claude mit den Ergebnissen der Auswertung dieser Anfrage.

Die Computerumgebung

Die Computernutzung erfordert eine abgeschirmte Computerumgebung, in der Claude sicher mit Anwendungen und dem Web interagieren kann. Diese Umgebung umfasst:

Virtuelles Display: Ein virtueller X11-Display-Server (mit Xvfb), der die Desktop-Schnittstelle rendert, die Claude durch Screenshots sehen und mit Maus-/Tastaturaktionen steuern wird.
Desktop-Umgebung: Eine leichtgewichtige Benutzeroberfläche mit Fenstermanager (Mutter) und Panel (Tint2), die unter Linux läuft und eine konsistente grafische Schnittstelle für Claude bietet.
Anwendungen: Vorinstallierte Linux-Anwendungen wie Firefox, LibreOffice, Texteditoren und Dateimanager, die Claude zur Erledigung von Aufgaben verwenden kann.
Tool-Implementierungen: Integrationscode, der Claudes abstrakte Tool-Anfragen (wie “Maus bewegen” oder “Screenshot machen”) in tatsächliche Operationen in der virtuellen Umgebung übersetzt.
Agent-Schleife: Ein Programm, das die Kommunikation zwischen Claude und der Umgebung verwaltet, Claudes Aktionen an die Umgebung sendet und die Ergebnisse (Screenshots, Befehlsausgaben) an Claude zurückgibt.

Wenn Sie die Computernutzung verwenden, verbindet sich Claude nicht direkt mit dieser Umgebung. Stattdessen:

Empfängt Ihre Anwendung Claudes Tool-Nutzungsanfragen
Übersetzt sie in Aktionen in Ihrer Computerumgebung
Erfasst die Ergebnisse (Screenshots, Befehlsausgaben usw.)
Gibt diese Ergebnisse an Claude zurück

Aus Sicherheits- und Isolationsgründen führt die Referenzimplementierung all dies innerhalb eines Docker-Containers mit geeigneten Port-Mappings zum Anzeigen und Interagieren mit der Umgebung aus.

Wie man die Computernutzung implementiert

Beginnen Sie mit unserer Referenzimplementierung

Wir haben eine Referenzimplementierung erstellt, die alles enthält, was Sie für einen schnellen Einstieg in die Computernutzung benötigen:

Eine containerisierte Umgebung, die für die Computernutzung mit Claude geeignet ist
Implementierungen der Computernutzungs-Tools
Eine Agent-Schleife, die mit der Anthropic API interagiert und die Computernutzungs-Tools ausführt
Eine Weboberfläche zur Interaktion mit dem Container, der Agent-Schleife und den Tools.

Verstehen der Multi-Agent-Schleife

Der Kern der Computernutzung ist die “Agent-Schleife” - ein Zyklus, bei dem Claude Tool-Aktionen anfordert, Ihre Anwendung diese ausführt und die Ergebnisse an Claude zurückgibt. Hier ist ein vereinfachtes Beispiel:

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Iterationslimit hinzufügen, um Endlosschleifen zu verhindern
):
    """
    Eine einfache Agent-Schleife für Claude-Computernutzungsinteraktionen.

    Diese Funktion verwaltet den Austausch zwischen:
    1. Senden von Benutzernachrichten an Claude
    
    2. Claude fordert die Verwendung von Tools an
    3. Ihre App führt diese Tools aus
    4. Senden von Tool-Ergebnissen zurück an Claude
    """
    # Tools und API-Parameter einrichten
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Tools konfigurieren - diese sollten bereits anderswo initialisiert sein
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Haupt-Agent-Schleife (mit Iterationslimit, um unkontrollierte API-Kosten zu verhindern)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Optionalen Thinking-Parameter einrichten (für Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Die Claude API aufrufen
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Claudes Antwort zum Konversationsverlauf hinzufügen
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Prüfen, ob Claude Tools verwendet hat
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # In einer echten App würden Sie das Tool hier ausführen
                # Zum Beispiel: result = run_tool(block.name, block.input)
                result = {"result": "Tool erfolgreich ausgeführt"}

                # Das Ergebnis für Claude formatieren
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Wenn keine Tools verwendet wurden, ist Claude fertig - geben Sie die endgültigen Nachrichten zurück
        if not tool_results:
            return messages

        # Tool-Ergebnisse zu Nachrichten für die nächste Iteration mit Claude hinzufügen
        messages.append({"role": "user", "content": tool_results})

Die Schleife wird fortgesetzt, bis entweder Claude ohne Anforderung von Tools antwortet (Aufgabenabschluss) oder das maximale Iterationslimit erreicht ist. Diese Sicherheitsmaßnahme verhindert potenzielle Endlosschleifen, die zu unerwarteten API-Kosten führen könnten.

Für jede Version der Tools müssen Sie das entsprechende Beta-Flag in Ihrer API-Anfrage verwenden:

Claude 4 Beta-Flag

Claude Sonnet 3.7 Beta-Flag

Claude Sonnet 3.5 (neu) Beta-Flag

Wir empfehlen, die Referenzimplementierung auszuprobieren, bevor Sie den Rest dieser Dokumentation lesen.

Optimieren Sie die Modellleistung mit Prompting

Hier sind einige Tipps, wie Sie die beste Ausgabequalität erzielen können:

Geben Sie einfache, klar definierte Aufgaben an und liefern Sie explizite Anweisungen für jeden Schritt.
Claude nimmt manchmal Ergebnisse seiner Aktionen an, ohne deren Ergebnisse explizit zu überprüfen. Um dies zu verhindern, können Sie Claude mit folgendem Prompt anweisen: Mache nach jedem Schritt einen Screenshot und bewerte sorgfältig, ob du das richtige Ergebnis erzielt hast. Zeige dein Denken explizit: "Ich habe Schritt X ausgewertet..." Wenn es nicht korrekt ist, versuche es erneut. Erst wenn du bestätigst, dass ein Schritt korrekt ausgeführt wurde, solltest du zum nächsten übergehen.
Einige UI-Elemente (wie Dropdown-Menüs und Scrollleisten) können für Claude schwierig sein, mit Mausbewegungen zu manipulieren. Wenn Sie dies erleben, versuchen Sie, das Modell anzuweisen, Tastaturkürzel zu verwenden.
Für wiederholbare Aufgaben oder UI-Interaktionen fügen Sie Beispiel-Screenshots und Tool-Aufrufe erfolgreicher Ergebnisse in Ihren Prompt ein.
Wenn das Modell sich anmelden muss, geben Sie ihm den Benutzernamen und das Passwort in Ihrem Prompt innerhalb von XML-Tags wie <robot_credentials>. Die Verwendung der Computernutzung in Anwendungen, die eine Anmeldung erfordern, erhöht das Risiko schlechter Ergebnisse durch Prompt-Injection. Bitte lesen Sie unseren Leitfaden zur Minderung von Prompt-Injections, bevor Sie dem Modell Anmeldedaten zur Verfügung stellen.

Wenn Sie wiederholt auf eine klare Reihe von Problemen stoßen oder im Voraus wissen, welche Aufgaben Claude erledigen muss, verwenden Sie den System-Prompt, um Claude explizite Tipps oder Anweisungen zu geben, wie die Aufgaben erfolgreich erledigt werden können.

System-Prompts

Wenn eines der von Anthropic definierten Tools über die Anthropic API angefordert wird, wird ein computernutzungsspezifischer System-Prompt generiert. Er ähnelt dem Tool-Nutzungs-System-Prompt, beginnt aber mit:

Sie haben Zugriff auf eine Reihe von Funktionen, die Sie verwenden können, um die Frage des Benutzers zu beantworten. Dies umfasst den Zugriff auf eine abgeschirmte Computerumgebung. Sie haben derzeit NICHT die Möglichkeit, Dateien zu untersuchen oder mit externen Ressourcen zu interagieren, außer durch den Aufruf der unten aufgeführten Funktionen.

Wie bei der regulären Tool-Nutzung wird das vom Benutzer bereitgestellte Feld system_prompt weiterhin respektiert und bei der Erstellung des kombinierten System-Prompts verwendet.

Verstehen der von Anthropic definierten Tools

Als Beta können sich diese Tool-Definitionen ändern.

Wir haben eine Reihe von Tools bereitgestellt, die es Claude ermöglichen, Computer effektiv zu nutzen. Bei der Angabe eines von Anthropic definierten Tools sind die Felder description und tool_schema nicht erforderlich oder erlaubt.

Von Anthropic definierte Tools werden vom Benutzer ausgeführt

Von Anthropic definierte Tools werden von Anthropic definiert, aber Sie müssen die Ergebnisse des Tools explizit auswerten und die tool_results an Claude zurückgeben. Wie bei jedem Tool führt das Modell das Tool nicht automatisch aus.

Wir stellen eine Reihe von Anthropic-definierten Tools bereit, wobei jedes Tool Versionen hat, die für Claude 4, Claude Sonnet 3.7 und Claude Sonnet 3.5 optimiert sind:

Claude 4 Tools

Claude Sonnet 3.7 Tools

Claude Sonnet 3.5 (neu) Tools

Das Feld type identifiziert das Tool und seine Parameter für Validierungszwecke, das Feld name ist der Tool-Name, der dem Modell präsentiert wird.

Wenn Sie das Modell auffordern möchten, eines dieser Tools zu verwenden, können Sie explizit auf das Tool über das Feld name verweisen. Das Feld name muss innerhalb der Tool-Liste eindeutig sein; Sie können kein Tool mit demselben Namen wie ein von Anthropic definiertes Tool im selben API-Aufruf definieren.

Wir empfehlen nicht, Tools mit den Namen von Anthropic-definierten Tools zu definieren. Obwohl Sie Tools mit diesen Namen immer noch neu definieren können (solange der Tool-Name in Ihrem tools-Block eindeutig ist), kann dies zu einer verschlechterten Modellleistung führen.

Computer-Tool

Wir empfehlen nicht, Screenshots in Auflösungen über XGA/WXGA zu senden, um Probleme im Zusammenhang mit Bildgrößenänderung zu vermeiden. Das Vertrauen auf das Verhalten der Bildgrößenänderung in der API führt zu geringerer Modellgenauigkeit und langsamerer Leistung als die direkte Implementierung der Skalierung selbst.

Das Referenz-Repository zeigt, wie man von höheren Auflösungen auf eine empfohlene Auflösung skaliert.

Typen

computer_20250124 - Erweitertes Computer-Tool mit fortschrittlichen Funktionen für Claude 4
computer_20250124 - Erweitertes Computer-Tool mit zusätzlichen Aktionen, verfügbar in Claude Sonnet 3.7
computer_20241022 - Ursprüngliches Computer-Tool, verwendet mit Claude Sonnet 3.5 (neu)

Parameter

display_width_px: Erforderlich Die Breite des Displays, das vom Modell gesteuert wird, in Pixeln.
display_height_px: Erforderlich Die Höhe des Displays, das vom Modell gesteuert wird, in Pixeln.
display_number: Optional Die Display-Nummer, die gesteuert werden soll (nur relevant für X11-Umgebungen). Wenn angegeben, wird dem Tool in der Tool-Definition eine Display-Nummer bereitgestellt.

Tool-Beschreibung

Wir stellen unsere Tool-Beschreibung nur als Referenz bereit. Sie sollten dies nicht in Ihrem von Anthropic definierten Tool-Aufruf angeben.

Verwenden Sie eine Maus und Tastatur, um mit einem Computer zu interagieren, und machen Sie Screenshots.
* Dies ist eine Schnittstelle zu einer Desktop-GUI. Sie haben keinen Zugriff auf ein Terminal oder Anwendungsmenü. Sie müssen auf Desktop-Symbole klicken, um Anwendungen zu starten.
* Einige Anwendungen können Zeit benötigen, um zu starten oder Aktionen zu verarbeiten, daher müssen Sie möglicherweise warten und aufeinanderfolgende Screenshots machen, um die Ergebnisse Ihrer Aktionen zu sehen. Wenn Sie z.B. auf Firefox klicken und kein Fenster geöffnet wird, versuchen Sie, einen weiteren Screenshot zu machen.
* Die Bildschirmauflösung beträgt {{ display_width_px }}x{{ display_height_px }}.
* Die Display-Nummer ist {{ display_number }}
* Wenn Sie beabsichtigen, den Cursor zu bewegen, um auf ein Element wie ein Symbol zu klicken, sollten Sie einen Screenshot konsultieren, um die Koordinaten des Elements zu bestimmen, bevor Sie den Cursor bewegen.
* Wenn Sie versucht haben, auf ein Programm oder einen Link zu klicken, aber es nicht geladen wurde, auch nach dem Warten, versuchen Sie, Ihre Cursorposition so anzupassen, dass die Spitze des Cursors visuell auf das Element fällt, auf das Sie klicken möchten.
* Stellen Sie sicher, dass Sie auf Schaltflächen, Links, Symbole usw. mit der Cursorspitze in der Mitte des Elements klicken. Klicken Sie nicht auf die Ränder von Feldern, es sei denn, Sie werden dazu aufgefordert.

Tool-Eingabeschema

Wir stellen unser Eingabeschema nur als Referenz bereit. Für das erweiterte computer_20250124-Tool, das mit Claude Sonnet 3.7 verfügbar ist. Hier ist das vollständige Eingabeschema:

{
    "properties": {
        "action": {
            "description": "Die auszuführende Aktion. Die verfügbaren Aktionen sind:\n"
            "* `key`: Drücken Sie eine Taste oder Tastenkombination auf der Tastatur.\n"
            "  - Dies unterstützt die `key`-Syntax von xdotool.\n"
            '  - Beispiele: "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (für die Ziffernblock-0-Taste).\n'
            "* `hold_key`: Halten Sie eine Taste oder mehrere Tasten für eine bestimmte Dauer (in Sekunden) gedrückt. Unterstützt die gleiche Syntax wie `key`.\n"
            "* `type`: Geben Sie eine Zeichenfolge von Text auf der Tastatur ein.\n"
            "* `cursor_position`: Holen Sie die aktuelle (x, y) Pixelkoordinate des Cursors auf dem Bildschirm.\n"
            "* `mouse_move`: Bewegen Sie den Cursor zu einer bestimmten (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `left_mouse_down`: Drücken Sie die linke Maustaste.\n"
            "* `left_mouse_up`: Lassen Sie die linke Maustaste los.\n"
            "* `left_click`: Klicken Sie mit der linken Maustaste auf die angegebene (x, y) Pixelkoordinate auf dem Bildschirm. Sie können auch eine Tastenkombination angeben, die während des Klickens gedrückt gehalten werden soll, indem Sie den Parameter `text` verwenden.\n"
            "* `left_click_drag`: Klicken und ziehen Sie den Cursor von `start_coordinate` zu einer bestimmten (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `right_click`: Klicken Sie mit der rechten Maustaste auf die angegebene (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `middle_click`: Klicken Sie mit der mittleren Maustaste auf die angegebene (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `double_click`: Doppelklicken Sie mit der linken Maustaste auf die angegebene (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `triple_click`: Dreifachklicken Sie mit der linken Maustaste auf die angegebene (x, y) Pixelkoordinate auf dem Bildschirm.\n"
            "* `scroll`: Scrollen Sie den Bildschirm in eine bestimmte Richtung um eine bestimmte Anzahl von Klicks des Scrollrads an der angegebenen (x, y) Pixelkoordinate. Verwenden Sie NICHT PageUp/PageDown zum Scrollen.\n"
            "* `wait`: Warten Sie für eine bestimmte Dauer (in Sekunden).\n"
            "* `screenshot`: Machen Sie einen Screenshot des Bildschirms.",
            "enum": [
                "key",
                "hold_key",
                "type",
                "cursor_position",
                "mouse_move",
                "left_mouse_down",
                "left_mouse_up",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "triple_click",
                "scroll",
                "wait",
                "screenshot",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y): Die x (Pixel vom linken Rand) und y (Pixel vom oberen Rand) Koordinaten, zu denen die Maus bewegt werden soll. Nur erforderlich bei `action=mouse_move` und `action=left_click_drag`.",
            "type": "array",
        },
        "duration": {
            "description": "Die Dauer, für die die Taste gedrückt gehalten werden soll. Nur erforderlich bei `action=hold_key` und `action=wait`.",
            "type": "integer",
        },
        "scroll_amount": {
            "description": "Die Anzahl der 'Klicks' zum Scrollen. Nur erforderlich bei `action=scroll`.",
            "type": "integer",
        },
        "scroll_direction": {
            "description": "Die Richtung, in die der Bildschirm gescrollt werden soll. Nur erforderlich bei `action=scroll`.",
            "enum": ["up", "down", "left", "right"],
            "type": "string",
        },
        "start_coordinate": {
            "description": "(x, y): Die x (Pixel vom linken Rand) und y (Pixel vom oberen Rand) Koordinaten, von denen aus der Ziehvorgang beginnen soll. Nur erforderlich bei `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Nur erforderlich bei `action=type`, `action=key` und `action=hold_key`. Kann auch bei Klick- oder Scroll-Aktionen verwendet werden, um Tasten während des Klickens oder Scrollens gedrückt zu halten.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Für das ursprüngliche computer_20241022-Tool, das mit Claude Sonnet 3.5 (neu) verwendet wird:

{
    "properties": {
        "action": {
            "description": """Die auszuführende Aktion. Die verfügbaren Aktionen sind:
                * `key`: Drücken Sie eine Taste oder Tastenkombination auf der Tastatur.
                  - Dies unterstützt die `key`-Syntax von xdotool.
                  - Beispiele: "a", "Return", "alt+Tab", "ctrl+s", "Up", "KP_0" (für die Ziffernblock-0-Taste).
                * `type`: Geben Sie eine Zeichenfolge von Text auf der Tastatur ein.
                * `cursor_position`: Holen Sie die aktuelle (x, y) Pixelkoordinate des Cursors auf dem Bildschirm.
                * `mouse_move`: Bewegen Sie den Cursor zu einer bestimmten (x, y) Pixelkoordinate auf dem Bildschirm.
                * `left_click`: Klicken Sie mit der linken Maustaste.
                * `left_click_drag`: Klicken und ziehen Sie den Cursor zu einer bestimmten (x, y) Pixelkoordinate auf dem Bildschirm.
                * `right_click`: Klicken Sie mit der rechten Maustaste.
                * `middle_click`: Klicken Sie mit der mittleren Maustaste.
                * `double_click`: Doppelklicken Sie mit der linken Maustaste.
                * `screenshot`: Machen Sie einen Screenshot des Bildschirms.""",
            "enum": [
                "key",
                "type",
                "mouse_move",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "screenshot",
                "cursor_position",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y): Die x (Pixel vom linken Rand) und y (Pixel vom oberen Rand) Koordinaten, zu denen die Maus bewegt werden soll. Nur erforderlich bei `action=mouse_move` und `action=left_click_drag`.",
            "type": "array",
        },
        "text": {
            "description": "Nur erforderlich bei `action=type` und `action=key`.",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

Texteditor-Tool

Typen

text_editor_20250429 - Aktualisierter Texteditor für Claude 4 ohne den Befehl undo_edit
text_editor_20250124 - Gleiche Fähigkeiten wie die 20241022-Version, zur Verwendung mit Claude Sonnet 3.7
text_editor_20241022 - Ursprüngliches Texteditor-Tool, verwendet mit Claude Sonnet 3.5 (neu)

Tool-Beschreibung

Wir stellen unsere Tool-Beschreibung nur als Referenz bereit. Sie sollten dies nicht in Ihrem von Anthropic definierten Tool-Aufruf angeben.

Benutzerdefiniertes Bearbeitungstool zum Anzeigen, Erstellen und Bearbeiten von Dateien
* Der Status bleibt über Befehlsaufrufe und Diskussionen mit dem Benutzer hinweg erhalten
* Wenn `path` eine Datei ist, zeigt `view` das Ergebnis der Anwendung von `cat -n` an. Wenn `path` ein Verzeichnis ist, listet `view` nicht versteckte Dateien und Verzeichnisse bis zu 2 Ebenen tief auf
* Der Befehl `create` kann nicht verwendet werden, wenn der angegebene `path` bereits als Datei existiert
* Wenn ein `command` eine lange Ausgabe erzeugt, wird diese gekürzt und mit `<response clipped>` markiert
* Der Befehl `undo_edit` macht die letzte Bearbeitung an der Datei unter `path` rückgängig (nicht verfügbar in text_editor_20250429)

Hinweise zur Verwendung des Befehls `str_replace`:
* Der Parameter `old_str` sollte GENAU eine oder mehrere aufeinanderfolgende Zeilen aus der Originaldatei entsprechen. Achten Sie auf Leerzeichen!
* Wenn der Parameter `old_str` in der Datei nicht eindeutig ist, wird der Ersatz nicht durchgeführt. Stellen Sie sicher, dass Sie genügend Kontext in `old_str` einbeziehen, um ihn eindeutig zu machen
* Der Parameter `new_str` sollte die bearbeiteten Zeilen enthalten, die `old_str` ersetzen sollen

Tool-Eingabeschema

Wir stellen unser Eingabeschema nur als Referenz bereit. Sie sollten dies nicht in Ihrem von Anthropic definierten Tool-Aufruf angeben.

{
    "properties": {
        "command": {
            "description": "Die auszuführenden Befehle. Erlaubte Optionen sind: `view`, `create`, `str_replace`, `insert`, `undo_edit`.",
            "enum": ["view", "create", "str_replace", "insert", "undo_edit"],
            "type": "string",
        },
        "file_text": {
            "description": "Erforderlicher Parameter des Befehls `create`, mit dem Inhalt der zu erstellenden Datei.",
            "type": "string",
        },
        "insert_line": {
            "description": "Erforderlicher Parameter des Befehls `insert`. Der `new_str` wird NACH der Zeile `insert_line` von `path` eingefügt.",
            "type": "integer",
        },
        "new_str": {
            "description": "Optionaler Parameter des Befehls `str_replace`, der die neue Zeichenfolge enthält (wenn nicht angegeben, wird keine Zeichenfolge hinzugefügt). Erforderlicher Parameter des Befehls `insert`, der die einzufügende Zeichenfolge enthält.",
            "type": "string",
        },
        "old_str": {
            "description": "Erforderlicher Parameter des Befehls `str_replace`, der die zu ersetzende Zeichenfolge in `path` enthält.",
            "type": "string",
        },
        "path": {
            "description": "Absoluter Pfad zu Datei oder Verzeichnis, z.B. `/repo/file.py` oder `/repo`.",
            "type": "string",
        },
        "view_range": {
            "description": "Optionaler Parameter des Befehls `view`, wenn `path` auf eine Datei zeigt. Wenn keiner angegeben ist, wird die gesamte Datei angezeigt. Wenn angegeben, wird die Datei im angegebenen Zeilennummernbereich angezeigt, z.B. [11, 12] zeigt die Zeilen 11 und 12 an. Indexierung bei 1 beginnend. Die Einstellung `[start_line, -1]` zeigt alle Zeilen von `start_line` bis zum Ende der Datei an.",
            "items": {"type": "integer"},
            "type": "array",
        },
    },
    "required": ["command", "path"],
    "type": "object",
}

Bash-Tool

Typen

bash_20250124 - Erweitertes Bash-Tool für Claude 4 mit verbesserten Fähigkeiten
bash_20250124 - Gleiche Fähigkeiten wie die 20241022-Version, zur Verwendung mit Claude Sonnet 3.7
bash_20241022 - Ursprüngliches Bash-Tool, verwendet mit Claude Sonnet 3.5 (neu)

Tool-Beschreibung

Wir stellen unsere Tool-Beschreibung nur als Referenz bereit. Sie sollten dies nicht in Ihrem von Anthropic definierten Tool-Aufruf angeben.

Führen Sie Befehle in einer Bash-Shell aus
* Bei der Verwendung dieses Tools muss der Inhalt des Parameters "command" NICHT XML-escaped sein.
* Sie haben Zugriff auf einen Spiegel gängiger Linux- und Python-Pakete über apt und pip.
* Der Status bleibt über Befehlsaufrufe und Diskussionen mit dem Benutzer hinweg erhalten.
* Um einen bestimmten Zeilenbereich einer Datei zu untersuchen, z.B. Zeilen 10-25, versuchen Sie 'sed -n 10,25p /path/to/the/file'.
* Bitte vermeiden Sie Befehle, die eine sehr große Menge an Ausgabe erzeugen könnten.
* Bitte führen Sie langlebige Befehle im Hintergrund aus, z.B. 'sleep 10 &' oder starten Sie einen Server im Hintergrund.

Tool-Eingabeschema

Wir stellen unser Eingabeschema nur als Referenz bereit. Sie sollten dies nicht in Ihrem von Anthropic definierten Tool-Aufruf angeben.

{
    "properties": {
        "command": {
            "description": "Der auszuführende Bash-Befehl. Erforderlich, es sei denn, das Tool wird neu gestartet.",
            "type": "string",
        },
        "restart": {
            "description": "Die Angabe von true startet dieses Tool neu. Andernfalls lassen Sie dies unspezifiziert.",
            "type": "boolean",
        },
    }
}

Aktivieren der Denkfähigkeit in Claude 4 und Claude Sonnet 3.7

Claude Sonnet 3.7 führte eine neue “Denkfähigkeit” ein, die es Ihnen ermöglicht, den Denkprozess des Modells zu sehen, während es komplexe Aufgaben bearbeitet. Diese Funktion hilft Ihnen zu verstehen, wie Claude ein Problem angeht, und kann besonders wertvoll für Debugging oder Bildungszwecke sein.

Um das Denken zu aktivieren, fügen Sie einen thinking-Parameter zu Ihrer API-Anfrage hinzu:

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Der Parameter budget_tokens gibt an, wie viele Tokens Claude für das Denken verwenden kann. Dies wird von Ihrem gesamten max_tokens-Budget abgezogen.

Wenn das Denken aktiviert ist, gibt Claude seinen Denkprozess als Teil der Antwort zurück, was Ihnen helfen kann:

Den Entscheidungsprozess des Modells zu verstehen
Potenzielle Probleme oder Missverständnisse zu identifizieren
Von Claudes Herangehensweise an Problemlösungen zu lernen
Mehr Einblick in komplexe mehrstufige Operationen zu erhalten

Hier ist ein Beispiel dafür, wie die Denkausgabe aussehen könnte:

[Thinking]
Ich muss ein Bild einer Katze auf dem Desktop speichern. Lassen Sie mich dies in Schritte aufteilen:

1. Zuerst werde ich einen Screenshot machen, um zu sehen, was auf dem Desktop ist
2. Dann werde ich nach einem Webbrowser suchen, um nach Katzenbildern zu suchen
3. Nachdem ich ein geeignetes Bild gefunden habe, muss ich es auf dem Desktop speichern

Lassen Sie mich damit beginnen, einen Screenshot zu machen, um zu sehen, was verfügbar ist...

Kombinieren der Computernutzung mit anderen Tools

Sie können reguläre Tool-Nutzung mit den von Anthropic definierten Tools für die Computernutzung kombinieren.

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Erstellen einer benutzerdefinierten Computernutzungsumgebung

Die Referenzimplementierung soll Ihnen den Einstieg in die Computernutzung erleichtern. Sie enthält alle Komponenten, die benötigt werden, damit Claude einen Computer nutzen kann. Sie können jedoch Ihre eigene Umgebung für die Computernutzung erstellen, um Ihren Bedürfnissen gerecht zu werden. Sie benötigen:

Eine virtualisierte oder containerisierte Umgebung, die für die Computernutzung mit Claude geeignet ist
Eine Implementierung von mindestens einem der von Anthropic definierten Computernutzungs-Tools
Eine Agent-Schleife, die mit der Anthropic API interagiert und die tool_use-Ergebnisse mit Ihren Tool-Implementierungen ausführt
Eine API oder Benutzeroberfläche, die Benutzereingaben ermöglicht, um die Agent-Schleife zu starten

Verstehen der Einschränkungen der Computernutzung

Die Computernutzungsfunktionalität befindet sich in der Beta-Phase. Während Claudes Fähigkeiten hochmodern sind, sollten Entwickler sich seiner Einschränkungen bewusst sein:

Latenz: Die aktuelle Computernutzungslatenz für Mensch-KI-Interaktionen kann im Vergleich zu regulären menschengesteuerten Computeraktionen zu langsam sein. Wir empfehlen, sich auf Anwendungsfälle zu konzentrieren, bei denen Geschwindigkeit nicht kritisch ist (z.B. Hintergrundinformationssammlung, automatisierte Softwaretests) in vertrauenswürdigen Umgebungen.
Genauigkeit und Zuverlässigkeit der Computervision: Claude kann Fehler machen oder halluzinieren, wenn es spezifische Koordinaten bei der Generierung von Aktionen ausgibt. Claude Sonnet 3.7 führt die Denkfähigkeit ein, die Ihnen helfen kann, den Denkprozess des Modells zu verstehen und potenzielle Probleme zu identifizieren.
Genauigkeit und Zuverlässigkeit der Toolauswahl: Claude kann Fehler machen oder halluzinieren, wenn es Tools bei der Generierung von Aktionen auswählt oder unerwartete Aktionen zur Problemlösung durchführt. Darüber hinaus kann die Zuverlässigkeit geringer sein, wenn mit Nischenanwendungen oder mehreren Anwendungen gleichzeitig interagiert wird. Wir empfehlen Benutzern, das Modell sorgfältig zu promten, wenn komplexe Aufgaben angefordert werden.
Scrollzuverlässigkeit: Während Claude Sonnet 3.5 (neu) Einschränkungen beim Scrollen hatte, führt Claude Sonnet 3.7 dedizierte Scroll-Aktionen mit Richtungssteuerung ein, die die Zuverlässigkeit verbessern. Das Modell kann jetzt explizit in jede Richtung (hoch/runter/links/rechts) um eine bestimmte Menge scrollen.
Tabellenkalkulationsinteraktion: Mausklicks für die Tabellenkalkulationsinteraktion wurden in Claude Sonnet 3.7 mit der Hinz

ufügung präziserer Maussteuerungsaktionen wie left_mouse_down, left_mouse_up und neuer Modifikatortastenunterstützung verbessert. Die Zellauswahl kann zuverlässiger sein, indem diese feinkörnigen Steuerelemente verwendet und Modifikatortasten mit Klicks kombiniert werden. 6. Kontoerstellung und Inhaltsgenerierung auf sozialen und Kommunikationsplattformen: Während Claude Websites besucht, beschränken wir seine Fähigkeit, Konten zu erstellen oder Inhalte zu generieren und zu teilen oder anderweitig menschliche Impersonation über Social-Media-Websites und -Plattformen zu betreiben. Wir könnten diese Fähigkeit in Zukunft aktualisieren. 7. Schwachstellen: Schwachstellen wie Jailbreaking oder Prompt-Injection können über Frontier-KI-Systeme hinweg bestehen bleiben, einschließlich der Beta-Computernutzungs-API. Unter bestimmten Umständen befolgt Claude Befehle, die in Inhalten gefunden werden, manchmal sogar im Widerspruch zu den Anweisungen des Benutzers. Beispielsweise können Claude-Anweisungen auf Webseiten oder in Bildern die Anweisungen überschreiben oder dazu führen, dass Claude Fehler macht. Wir empfehlen: a. Beschränkung der Computernutzung auf vertrauenswürdige Umgebungen wie virtuelle Maschinen oder Container mit minimalen Rechten b. Vermeidung, der Computernutzung Zugriff auf sensible Konten oder Daten ohne strenge Überwachung zu geben c. Informieren der Endbenutzer über relevante Risiken und Einholen ihrer Zustimmung, bevor Sie die für Computernutzungsfunktionen in Ihren Anwendungen erforderlichen Berechtigungen aktivieren oder anfordern 8. Unangemessene oder illegale Aktionen: Gemäß den Nutzungsbedingungen von Anthropic dürfen Sie die Computernutzung nicht einsetzen, um Gesetze oder unsere Richtlinie zur akzeptablen Nutzung zu verletzen.

Überprüfen Sie immer sorgfältig Claudes Computernutzungsaktionen und -protokolle. Verwenden Sie Claude nicht für Aufgaben, die perfekte Präzision oder sensible Benutzerinformationen erfordern, ohne menschliche Aufsicht.

Preisgestaltung

Siehe die Dokumentation zur Tool-Nutzungspreisgestaltung für eine detaillierte Erklärung, wie Claude Tool Use API-Anfragen bepreist werden.

Als Teilmenge von Tool-Nutzungsanfragen werden Computernutzungsanfragen genauso bepreist wie jede andere Claude API-Anfrage.

Wir fügen auch automatisch einen speziellen System-Prompt für das Modell hinzu, der die Computernutzung ermöglicht.

Modell	Tool-Auswahl	System-Prompt-Token-Anzahl
Claude 4 Opus & Sonnet	`auto` `any`, `tool`	466 Tokens 499 Tokens
Claude Sonnet 3.7	`auto` `any`, `tool`	466 Tokens 499 Tokens
Claude Sonnet 3.5 (neu)	`auto` `any`, `tool`	466 Tokens 499 Tokens

Zusätzlich zu den Basis-Tokens werden die folgenden zusätzlichen Eingabe-Tokens für die von Anthropic definierten Tools benötigt:

Tool	Zusätzliche Eingabe-Tokens
`computer_20250124` (Claude 4)	735 Tokens
`computer_20250124` (Claude Sonnet 3.7)	735 Tokens
`computer_20241022` (Claude Sonnet 3.5)	683 Tokens
`text_editor_20250429` (Claude 4)	700 Tokens
`text_editor_20250124` (Claude Sonnet 3.7)	700 Tokens
`text_editor_20241022` (Claude Sonnet 3.5)	700 Tokens
`bash_20250124` (Claude 4)	245 Tokens
`bash_20250124` (Claude Sonnet 3.7)	245 Tokens
`bash_20241022` (Claude Sonnet 3.5)	245 Tokens

Wenn Sie das Denken mit Claude 4 oder Claude Sonnet 3.7 aktivieren, werden die für das Denken verwendeten Tokens auf Ihr max_tokens-Budget angerechnet, basierend auf den budget_tokens, die Sie im Thinking-Parameter angeben.

Release Notes

Referenzimplementierung für Computernutzung

​Wie die Computernutzung funktioniert

​Die Computerumgebung

​Wie man die Computernutzung implementiert

​Beginnen Sie mit unserer Referenzimplementierung

​Verstehen der Multi-Agent-Schleife

​Optimieren Sie die Modellleistung mit Prompting

​System-Prompts

​Verstehen der von Anthropic definierten Tools

​Aktivieren der Denkfähigkeit in Claude 4 und Claude Sonnet 3.7

​Kombinieren der Computernutzung mit anderen Tools

​Erstellen einer benutzerdefinierten Computernutzungsumgebung

​Verstehen der Einschränkungen der Computernutzung

​Preisgestaltung

Wie die Computernutzung funktioniert

Die Computerumgebung

Wie man die Computernutzung implementiert

Beginnen Sie mit unserer Referenzimplementierung

Verstehen der Multi-Agent-Schleife

Optimieren Sie die Modellleistung mit Prompting

System-Prompts

Verstehen der von Anthropic definierten Tools

Aktivieren der Denkfähigkeit in Claude 4 und Claude Sonnet 3.7

Kombinieren der Computernutzung mit anderen Tools

Erstellen einer benutzerdefinierten Computernutzungsumgebung

Verstehen der Einschränkungen der Computernutzung

Preisgestaltung