Token-effiziente Werkzeugnutzung (Beta)
Das verbesserte Claude 3.7 Sonnet-Modell ist in der Lage, Werkzeuge auf token-effiziente Weise aufzurufen. Anfragen sparen durchschnittlich 14% an Ausgabe-Tokens, bis zu 70%, was auch die Latenzzeit reduziert. Die genaue Token-Reduzierung und Latenzverbesserungen hängen von der allgemeinen Antwortform und -größe ab.
Token-effiziente Werkzeugnutzung ist eine Beta-Funktion. Bitte stellen Sie sicher, dass Sie Ihre Antworten evaluieren, bevor Sie sie in der Produktion einsetzen.
Bitte nutzen Sie dieses Formular, um Feedback zur Qualität der Modellantworten, der API selbst oder der Qualität der Dokumentation zu geben - wir können es kaum erwarten, von Ihnen zu hören!
Wenn Sie mit dieser Funktion experimentieren möchten, empfehlen wir die Verwendung des Prompt Improvers in der Console, um Ihren Prompt zu verbessern.
Token-effiziente Werkzeugnutzung funktioniert derzeit nicht mit disable_parallel_tool_use
.
Um diese Beta-Funktion zu nutzen, fügen Sie einfach den Beta-Header token-efficient-tools-2025-02-19
zu einer Werkzeuganfrage mit claude-3-7-sonnet-20250219
hinzu. Wenn Sie das SDK verwenden, stellen Sie sicher, dass Sie das Beta-SDK mit anthropic.beta.messages
verwenden.
Hier ist ein Beispiel für die Verwendung von token-effizienten Werkzeugen mit der API:
Die obige Anfrage sollte im Durchschnitt weniger Ein- und Ausgabe-Tokens verwenden als eine normale Anfrage. Um dies zu bestätigen, versuchen Sie, dieselbe Anfrage zu stellen, aber entfernen Sie token-efficient-tools-2025-02-19
aus der Liste der Beta-Header.
Um die Vorteile des Prompt-Cachings zu bewahren, verwenden Sie den Beta-Header konsistent für Anfragen, die Sie cachen möchten. Wenn Sie ihn selektiv verwenden, wird das Prompt-Caching fehlschlagen.
Was this page helpful?