Le modèle Claude 3.7 Sonnet amélioré est capable d’appeler des outils de manière efficace en termes de tokens. Les requêtes économisent en moyenne 14% de tokens en sortie, jusqu’à 70%, ce qui réduit également la latence. La réduction exacte des tokens et les améliorations de latence dépendent de la forme et de la taille globales de la réponse.

L’utilisation efficace des tokens pour les outils est une fonctionnalité bêta. Veuillez vous assurer d’évaluer vos réponses avant de l’utiliser en production.

Veuillez utiliser ce formulaire pour nous faire part de vos commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation - nous avons hâte d’avoir vos retours !

Si vous choisissez d’expérimenter cette fonctionnalité, nous vous recommandons d’utiliser l’Améliorateur de Prompts dans la Console pour améliorer votre prompt.

L’utilisation efficace des tokens ne fonctionne pas actuellement avec disable_parallel_tool_use.

Pour utiliser cette fonctionnalité bêta, ajoutez simplement l’en-tête bêta token-efficient-tools-2025-02-19 à une requête d’utilisation d’outil avec claude-3-7-sonnet-20250219. Si vous utilisez le SDK, assurez-vous d’utiliser le SDK bêta avec anthropic.beta.messages.

Voici un exemple d’utilisation des outils à tokens efficaces avec l’API :

La requête ci-dessus devrait, en moyenne, utiliser moins de tokens d’entrée et de sortie qu’une requête normale. Pour le confirmer, essayez de faire la même requête mais en retirant token-efficient-tools-2025-02-19 de la liste des en-têtes bêta.

Pour conserver les avantages de la mise en cache des prompts, utilisez l’en-tête bêta de manière cohérente pour les requêtes que vous souhaitez mettre en cache. Si vous l’utilisez de manière sélective, la mise en cache des prompts échouera.