Claude Sonnet 3.7 est capable d’appeler des outils de manière économe en tokens. Les requêtes économisent en moyenne 14% de tokens en sortie, jusqu’à 70%, ce qui réduit également la latence. La réduction exacte de tokens et les améliorations de latence dépendent de la forme et de la taille globales de la réponse.

L’utilisation d’outils économe en tokens est une fonctionnalité bêta. Veuillez vous assurer d’évaluer vos réponses avant de l’utiliser en production.

Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation—nous avons hâte de recevoir vos retours !

Si vous choisissez d’expérimenter cette fonctionnalité, nous vous recommandons d’utiliser l’Améliorateur de Prompt dans la Console pour améliorer votre prompt.

L’utilisation d’outils économe en tokens ne fonctionne pas actuellement avec disable_parallel_tool_use.

Les modèles Claude 4 (Opus et Sonnet) ne prennent pas en charge cette fonctionnalité. L’en-tête bêta token-efficient-tools-2025-02-19 ne cassera pas une requête API, mais il n’aura aucun effet.

Pour utiliser cette fonctionnalité bêta, ajoutez simplement l’en-tête bêta token-efficient-tools-2025-02-19 à une requête d’utilisation d’outil. Si vous utilisez le SDK, assurez-vous d’utiliser le SDK bêta avec anthropic.beta.messages.

Voici un exemple d’utilisation d’outils économes en tokens avec l’API :

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: token-efficient-tools-2025-02-19" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "tools": [
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            }
          },
          "required": [
            "location"
          ]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Tell me the weather in San Francisco."
      }
    ]
  }' | jq '.usage'

La requête ci-dessus devrait, en moyenne, utiliser moins de tokens d’entrée et de sortie qu’une requête normale. Pour confirmer cela, essayez de faire la même requête mais supprimez token-efficient-tools-2025-02-19 de la liste des en-têtes bêta.

Pour conserver les avantages de la mise en cache des prompts, utilisez l’en-tête bêta de manière cohérente pour les requêtes que vous souhaitez mettre en cache. Si vous l’utilisez de manière sélective, la mise en cache des prompts échouera.