Token-effiziente Werkzeugnutzung (Beta)
Claude Sonnet 3.7 kann Werkzeuge auf token-effiziente Weise aufrufen. Anfragen sparen durchschnittlich 14% an Ausgabe-Tokens, bis zu 70%, was auch die Latenz reduziert. Die genaue Token-Reduzierung und Latenzverbesserungen hängen von der Gesamtform und -größe der Antwort ab.
Token-effiziente Werkzeugnutzung ist eine Beta-Funktion. Bitte stellen Sie sicher, dass Sie Ihre Antworten evaluieren, bevor Sie sie in der Produktion einsetzen.
Bitte nutzen Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben - wir können es kaum erwarten, von Ihnen zu hören!
Wenn Sie mit dieser Funktion experimentieren möchten, empfehlen wir die Verwendung des Prompt Improvers in der Console, um Ihren Prompt zu verbessern.
Token-effiziente Werkzeugnutzung funktioniert derzeit nicht mit disable_parallel_tool_use
.
Claude 4 Modelle (Opus und Sonnet) unterstützen diese Funktion nicht. Der Beta-Header token-efficient-tools-2025-02-19
wird eine API-Anfrage nicht unterbrechen, aber er wird zu einem No-Op führen.
Um diese Beta-Funktion zu nutzen, fügen Sie einfach den Beta-Header token-efficient-tools-2025-02-19
zu einer Werkzeuganfrage hinzu. Wenn Sie das SDK verwenden, stellen Sie sicher, dass Sie das Beta-SDK mit anthropic.beta.messages
verwenden.
Hier ist ein Beispiel, wie man token-effiziente Werkzeuge mit der API verwendet:
Die obige Anfrage sollte im Durchschnitt weniger Eingabe- und Ausgabe-Tokens verwenden als eine normale Anfrage. Um dies zu bestätigen, versuchen Sie, dieselbe Anfrage zu stellen, aber entfernen Sie token-efficient-tools-2025-02-19
aus der Liste der Beta-Header.
Um die Vorteile des Prompt-Cachings beizubehalten, verwenden Sie den Beta-Header konsequent für Anfragen, die Sie cachen möchten. Wenn Sie ihn selektiv verwenden, wird das Prompt-Caching fehlschlagen.