Comprendre la fenêtre de contexte

La “fenêtre de contexte” fait référence à l’intégralité du texte qu’un modèle de langage peut consulter et auquel il peut se référer lors de la génération de nouveau texte, plus le nouveau texte qu’il génère. Cela diffère du vaste corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une “mémoire de travail” pour le modèle. Une fenêtre de contexte plus grande permet au modèle de comprendre et de répondre à des instructions plus complexes et longues, tandis qu’une fenêtre de contexte plus petite peut limiter la capacité du modèle à traiter des instructions plus longues ou à maintenir la cohérence lors de conversations prolongées.

Le schéma ci-dessous illustre le comportement standard de la fenêtre de contexte pour les requêtes API1 :

1Pour les interfaces de chat, comme pour claude.ai, les fenêtres de contexte peuvent également être configurées sur un système de roulement “premier entré, premier sorti”.

  • Accumulation progressive de tokens : Au fur et à mesure que la conversation avance, chaque message de l’utilisateur et chaque réponse de l’assistant s’accumulent dans la fenêtre de contexte. Les tours précédents sont entièrement préservés.
  • Modèle de croissance linéaire : L’utilisation du contexte croît linéairement à chaque tour, les tours précédents étant entièrement préservés.
  • Capacité de 200K tokens : La fenêtre de contexte totale disponible (200 000 tokens) représente la capacité maximale pour stocker l’historique de conversation et générer de nouvelles sorties de Claude.
  • Flux entrée-sortie : Chaque tour se compose de :
    • Phase d’entrée : Contient tout l’historique de conversation précédent plus le message actuel de l’utilisateur
    • Phase de sortie : Génère une réponse textuelle qui devient une partie d’une future entrée

La fenêtre de contexte avec la réflexion étendue

Lors de l’utilisation de la réflexion étendue, tous les tokens d’entrée et de sortie, y compris les tokens utilisés pour la réflexion, sont comptabilisés dans la limite de la fenêtre de contexte, avec quelques nuances dans les situations à plusieurs tours.

Les tokens du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme des tokens de sortie et sont comptabilisés dans les limites de débit.

Cependant, les blocs de réflexion précédents sont automatiquement supprimés du calcul de la fenêtre de contexte par l’API Anthropic et ne font pas partie de l’historique de conversation que le modèle “voit” pour les tours suivants, préservant ainsi la capacité de tokens pour le contenu réel de la conversation.

Le schéma ci-dessous démontre la gestion spécialisée des tokens lorsque la réflexion étendue est activée :

  • Suppression de la réflexion étendue : Les blocs de réflexion étendue (affichés en gris foncé) sont générés pendant la phase de sortie de chaque tour, mais ne sont pas reportés comme tokens d’entrée pour les tours suivants. Vous n’avez pas besoin de supprimer vous-même les blocs de réflexion. L’API Anthropic le fait automatiquement pour vous si vous les renvoyez.
  • Détails techniques de mise en œuvre :
    • L’API exclut automatiquement les blocs de réflexion des tours précédents lorsque vous les renvoyez dans le cadre de l’historique de conversation.
    • Les tokens de réflexion étendue ne sont facturés qu’une seule fois comme tokens de sortie, lors de leur génération.
    • Le calcul effectif de la fenêtre de contexte devient : fenêtre_de_contexte = (tokens_d'entrée - tokens_de_réflexion_précédents) + tokens_du_tour_actuel.
    • Les tokens de réflexion incluent à la fois les blocs thinking et les blocs redacted_thinking.

Cette architecture est efficace en termes de tokens et permet un raisonnement approfondi sans gaspillage de tokens, car les blocs de réflexion peuvent être d’une longueur considérable.

Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans notre guide de réflexion étendue.

La fenêtre de contexte avec réflexion étendue et utilisation d’outils

Le schéma ci-dessous illustre la gestion des tokens de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l’utilisation d’outils :

1

Architecture du premier tour

  • Composants d’entrée : Configuration des outils et message de l’utilisateur
  • Composants de sortie : Réflexion étendue + réponse textuelle + demande d’utilisation d’outil
  • Calcul des tokens : Tous les composants d’entrée et de sortie sont comptabilisés dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme des tokens de sortie.
2

Gestion des résultats d'outils (tour 2)

  • Composants d’entrée : Chaque bloc du premier tour ainsi que le tool_result. Le bloc de réflexion étendue doit être renvoyé avec les résultats d’outils correspondants. C’est le seul cas où vous devez renvoyer les blocs de réflexion.
  • Composants de sortie : Après que les résultats d’outils ont été renvoyés à Claude, Claude répondra avec du texte uniquement (pas de réflexion étendue supplémentaire jusqu’au prochain message user).
  • Calcul des tokens : Tous les composants d’entrée et de sortie sont comptabilisés dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme des tokens de sortie.
3

Troisième étape

  • Composants d’entrée : Toutes les entrées et la sortie du tour précédent sont reportées à l’exception du bloc de réflexion, qui peut être supprimé maintenant que Claude a terminé l’ensemble du cycle d’utilisation d’outils. L’API supprimera automatiquement le bloc de réflexion pour vous si vous le renvoyez, ou vous pouvez le supprimer vous-même à ce stade. C’est également à ce moment que vous ajouteriez le prochain tour de l’Utilisateur.
  • Composants de sortie : Puisqu’il y a un nouveau tour de l’Utilisateur en dehors du cycle d’utilisation d’outils, Claude générera un nouveau bloc de réflexion étendue et continuera à partir de là.
  • Calcul des tokens : Les tokens de réflexion précédents sont automatiquement supprimés des calculs de la fenêtre de contexte. Tous les autres blocs précédents comptent toujours dans la fenêtre de tokens, et le bloc de réflexion dans le tour actuel de l’Assistant compte dans la fenêtre de contexte.
  • Considérations pour l’utilisation d’outils avec la réflexion étendue :
    • Lors de la publication des résultats d’outils, l’intégralité du bloc de réflexion non modifié qui accompagne cette demande d’outil spécifique (y compris les parties de signature/expurgées) doit être incluse.
    • Le calcul effectif de la fenêtre de contexte pour la réflexion étendue avec utilisation d’outils devient : fenêtre_de_contexte = tokens_d'entrée + tokens_du_tour_actuel.
    • Le système utilise des signatures cryptographiques pour vérifier l’authenticité des blocs de réflexion. Ne pas préserver les blocs de réflexion pendant l’utilisation d’outils peut briser la continuité du raisonnement de Claude. Ainsi, si vous modifiez les blocs de réflexion, l’API renverra une erreur.

Les modèles Claude 4 prennent en charge la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d’outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats des outils.

Claude Sonnet 3.7 ne prend pas en charge la réflexion entrelacée, il n’y a donc pas d’entrelacement de la réflexion étendue et des appels d’outils sans un tour utilisateur non-tool_result entre les deux.

Pour plus d’informations sur l’utilisation d’outils avec la réflexion étendue, consultez notre guide de réflexion étendue.

Gestion de la fenêtre de contexte avec les nouveaux modèles Claude

Dans les nouveaux modèles Claude (à partir de Claude Sonnet 3.7), si la somme des tokens d’invite et des tokens de sortie dépasse la fenêtre de contexte du modèle, le système renverra une erreur de validation plutôt que de tronquer silencieusement le contexte. Ce changement offre un comportement plus prévisible mais nécessite une gestion plus attentive des tokens.

Pour planifier votre utilisation de tokens et vous assurer de rester dans les limites de la fenêtre de contexte, vous pouvez utiliser l’API de comptage de tokens pour estimer combien de tokens vos messages utiliseront avant de les envoyer à Claude.

Consultez notre tableau de comparaison des modèles pour une liste des tailles de fenêtres de contexte par modèle.

Prochaines étapes