Le comptage de tokens vous permet de déterminer le nombre de tokens dans un message avant de l’envoyer à Claude, vous aidant à prendre des décisions éclairées concernant vos prompts et votre utilisation. Avec le comptage de tokens, vous pouvez :
Gérer de manière proactive les limites de taux et les coûts
Prendre des décisions intelligentes sur le routage des modèles
Optimiser les prompts pour une longueur spécifique
Le point de terminaison comptage de tokens accepte la même liste structurée d’entrées que pour la création d’un message, y compris la prise en charge des prompts système, des outils, des images et des PDF. La réponse contient le nombre total de tokens d’entrée.
Le nombre de tokens doit être considéré comme une estimation. Dans certains cas, le nombre réel de tokens d’entrée utilisés lors de la création d’un message peut différer légèrement.
Compter les tokens dans les messages avec des outils
Les comptages de tokens pour les outils serveur ne s’appliquent qu’au premier appel d’échantillonnage.
import anthropicclient = anthropic.Anthropic()response = client.messages.count_tokens( model="claude-opus-4-20250514", tools=[{"name":"get_weather","description":"Get the current weather in a given location","input_schema":{"type":"object","properties":{"location":{"type":"string","description":"The city and state, e.g. San Francisco, CA",}},"required":["location"],},}], messages=[{"role":"user","content":"What's the weather like in San Francisco?"}])print(response.json())
Compter les tokens dans les messages avec réflexion étendue
Voir ici pour plus de détails sur la façon dont la fenêtre de contexte est calculée avec la réflexion étendue
Les blocs de réflexion des tours d’assistant précédents sont ignorés et ne comptent pas dans vos tokens d’entrée
La réflexion du tour d’assistant actuelcompte dans vos tokens d’entrée
curl https://api.anthropic.com/v1/messages/count_tokens \--header"x-api-key: $ANTHROPIC_API_KEY"\--header"content-type: application/json"\--header"anthropic-version: 2023-06-01"\--data '{"model":"claude-opus-4-20250514","thinking":{"type":"enabled","budget_tokens":16000},"messages":[{"role":"user","content":"Are there an infinite number of prime numbers such that n mod 4 == 3?"},{"role":"assistant","content":[{"type":"thinking","thinking":"This is a nice number theory question. Lets think about it step by step...","signature":"EuYBCkQYAiJAgCs1le6/Pol5Z4/JMomVOouGrWdhYNsH3ukzUECbB6iWrSQtsQuRHJID6lWV..."},{"type":"text","text":"Yes, there are infinitely many prime numbers p such that p mod 4 = 3..."}]},{"role":"user","content":"Can you write a formal proof?"}]}'
Le comptage de tokens est gratuit à utiliser mais soumis à des limites de requêtes par minute basées sur votre niveau d’utilisation. Si vous avez besoin de limites plus élevées, contactez le service commercial via la Console Anthropic.
Niveau d’utilisation
Requêtes par minute (RPM)
1
100
2
2 000
3
4 000
4
8 000
Le comptage de tokens et la création de messages ont des limites de taux séparées et indépendantes — l’utilisation de l’un ne compte pas dans les limites de l’autre.
Non, le comptage de tokens fournit une estimation sans utiliser la logique de mise en cache. Bien que vous puissiez fournir des blocs cache_control dans votre demande de comptage de tokens, la mise en cache des prompts ne se produit que lors de la création réelle du message.