Fenêtres de contexte
Comprendre la fenêtre de contexte
La “fenêtre de contexte” fait référence à la totalité du texte qu’un modèle de langage peut consulter et référencer lors de la génération de nouveau texte, plus le nouveau texte qu’il génère. C’est différent du vaste corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une “mémoire de travail” pour le modèle. Une fenêtre de contexte plus grande permet au modèle de comprendre et de répondre à des prompts plus complexes et plus longs, tandis qu’une fenêtre de contexte plus petite peut limiter la capacité du modèle à gérer des prompts plus longs ou à maintenir la cohérence sur des conversations étendues.
Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les requêtes API1 :
1Pour les interfaces de chat, comme pour claude.ai, les fenêtres de contexte peuvent également être configurées sur un système “premier entré, premier sorti”.
- Accumulation progressive des tokens : Au fur et à mesure que la conversation avance, chaque message utilisateur et réponse de l’assistant s’accumulent dans la fenêtre de contexte. Les tours précédents sont entièrement préservés.
- Modèle de croissance linéaire : L’utilisation du contexte croît linéairement à chaque tour, les tours précédents étant entièrement préservés.
- Capacité de 200K tokens : La fenêtre de contexte totale disponible (200 000 tokens) représente la capacité maximale pour stocker l’historique des conversations et générer de nouvelles sorties de Claude.
- Flux entrée-sortie : Chaque tour consiste en :
- Phase d’entrée : Contient tout l’historique de conversation précédent plus le message actuel de l’utilisateur
- Phase de sortie : Génère une réponse textuelle qui devient partie intégrante d’une future entrée
La fenêtre de contexte avec la réflexion étendue
Lors de l’utilisation de la réflexion étendue, tous les tokens d’entrée et de sortie, y compris les tokens utilisés pour la réflexion, comptent dans la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.
Les tokens du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens
, sont facturés comme tokens de sortie et comptent dans les limites de taux.
Cependant, les blocs de réflexion précédents sont automatiquement supprimés du calcul de la fenêtre de contexte par l’API Anthropic et ne font pas partie de l’historique de conversation que le modèle “voit” pour les tours suivants, préservant ainsi la capacité en tokens pour le contenu réel de la conversation.
Le diagramme ci-dessous démontre la gestion spécialisée des tokens lorsque la réflexion étendue est activée :
- Suppression de la réflexion étendue : Les blocs de réflexion étendue (montrés en gris foncé) sont générés pendant la phase de sortie de chaque tour, mais ne sont pas reportés comme tokens d’entrée pour les tours suivants. Vous n’avez pas besoin de supprimer vous-même les blocs de réflexion. L’API Anthropic le fait automatiquement pour vous si vous les renvoyez.
- Détails techniques d’implémentation :
- L’API exclut automatiquement les blocs de réflexion des tours précédents lorsque vous les renvoyez dans le cadre de l’historique de conversation.
- Les tokens de réflexion étendue ne sont facturés qu’une seule fois comme tokens de sortie, lors de leur génération.
- Le calcul effectif de la fenêtre de contexte devient :
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens
. - Les tokens de réflexion incluent à la fois les blocs
thinking
et les blocsredacted_thinking
.
Cette architecture est efficace en termes de tokens et permet un raisonnement extensif sans gaspillage de tokens, car les blocs de réflexion peuvent être substantiels en longueur.
Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans notre guide de réflexion étendue.
La fenêtre de contexte avec réflexion étendue et utilisation d’outils
Le diagramme ci-dessous illustre la gestion des tokens de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l’utilisation d’outils :
Architecture du premier tour
- Composants d’entrée : Configuration des outils et message utilisateur
- Composants de sortie : Réflexion étendue + réponse textuelle + demande d’utilisation d’outil
- Calcul des tokens : Tous les composants d’entrée et de sortie comptent dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme tokens de sortie.
Gestion des résultats d'outils (tour 2)
- Composants d’entrée : Chaque bloc du premier tour ainsi que le
tool_result
. Le bloc de réflexion étendue doit être renvoyé avec les résultats d’outils correspondants. C’est le seul cas où vous devez renvoyer les blocs de réflexion. - Composants de sortie : Après que les résultats d’outils ont été renvoyés à Claude, Claude répondra uniquement avec du texte (pas de réflexion étendue supplémentaire jusqu’au prochain message
user
). - Calcul des tokens : Tous les composants d’entrée et de sortie comptent dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme tokens de sortie.
Troisième étape
- Composants d’entrée : Toutes les entrées et la sortie du tour précédent sont reportées à l’exception du bloc de réflexion, qui peut être abandonné maintenant que Claude a terminé le cycle complet d’utilisation d’outils. L’API supprimera automatiquement le bloc de réflexion si vous le renvoyez, ou vous pouvez le supprimer vous-même à ce stade. C’est également ici que vous ajouteriez le prochain tour
User
. - Composants de sortie : Puisqu’il y a un nouveau tour
User
en dehors du cycle d’utilisation d’outils, Claude générera un nouveau bloc de réflexion étendue et continuera à partir de là. - Calcul des tokens : Les tokens de réflexion précédents sont automatiquement supprimés des calculs de la fenêtre de contexte. Tous les autres blocs précédents comptent toujours dans la fenêtre de tokens, et le bloc de réflexion dans le tour
Assistant
actuel compte dans la fenêtre de contexte.
- Considérations pour l’utilisation d’outils avec la réflexion étendue :
- Lors de la publication des résultats d’outils, le bloc de réflexion complet non modifié qui accompagne cette demande d’outil spécifique (y compris les parties signature/caviardées) doit être inclus.
- Le système utilise des signatures cryptographiques pour vérifier l’authenticité des blocs de réflexion. Ne pas préserver les blocs de réflexion pendant l’utilisation d’outils peut briser la continuité du raisonnement de Claude. Ainsi, si vous modifiez les blocs de réflexion, l’API renverra une erreur.
Il n’y a pas d’entrelacement de réflexion étendue et d’appels d’outils - vous ne verrez pas de réflexion étendue, puis des appels d’outils, puis plus de réflexion étendue, sans un tour utilisateur non-tool_result
entre les deux. De plus, l’utilisation d’outils dans le bloc de réflexion étendue lui-même n’est pas actuellement prise en charge, bien que Claude puisse raisonner sur les outils qu’il devrait utiliser et comment les appeler dans le bloc de réflexion.
Vous pouvez en savoir plus sur l’utilisation d’outils avec la réflexion étendue dans notre guide de réflexion étendue
Gestion de la fenêtre de contexte avec les nouveaux modèles Claude
Dans les nouveaux modèles Claude (à partir de Claude 3.7 Sonnet), si la somme des tokens de prompt et des tokens de sortie dépasse la fenêtre de contexte du modèle, le système renverra une erreur de validation plutôt que de tronquer silencieusement le contexte. Ce changement fournit un comportement plus prévisible mais nécessite une gestion plus attentive des tokens.
Pour planifier votre utilisation de tokens et vous assurer de rester dans les limites de la fenêtre de contexte, vous pouvez utiliser l’API de comptage des tokens pour estimer combien de tokens vos messages utiliseront avant de les envoyer à Claude.
Consultez notre tableau de comparaison des modèles pour une liste des tailles de fenêtres de contexte par modèle.
Prochaines étapes
Tableau de comparaison des modèles
Consultez notre tableau de comparaison des modèles pour une liste des tailles de fenêtres de contexte et des prix des tokens d’entrée/sortie par modèle.
Aperçu de la réflexion étendue
En savoir plus sur le fonctionnement de la réflexion étendue et comment l’implémenter avec d’autres fonctionnalités telles que l’utilisation d’outils et la mise en cache des prompts.
Was this page helpful?