La réflexion étendue confère à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en offrant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

Modèles pris en charge

La réflexion étendue est prise en charge dans les modèles suivants :

  • Claude Opus 4 (claude-opus-4-20250514)
  • Claude Sonnet 4 (claude-sonnet-4-20250514)
  • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219)

Le comportement de l’API diffère entre les modèles Claude 3.7 et Claude 4, mais les structures d’API restent exactement les mêmes.

Pour plus d’informations, consultez Différences de réflexion entre les versions de modèles.

Comment fonctionne la réflexion étendue

Lorsque la réflexion étendue est activée, Claude crée des blocs de contenu thinking où il expose son raisonnement interne. Claude intègre les idées issues de ce raisonnement avant d’élaborer une réponse finale.

La réponse de l’API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

Voici un exemple du format de réponse par défaut :

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Analysons cela étape par étape...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "D'après mon analyse..."
    }
  ]
}

Pour plus d’informations sur le format de réponse de la réflexion étendue, consultez la Référence de l’API Messages.

Comment utiliser la réflexion étendue

Voici un exemple d’utilisation de la réflexion étendue dans l’API Messages :

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Y a-t-il un nombre infini de nombres premiers tels que n mod 4 == 3 ?"
        }
    ]
}'

Pour activer la réflexion étendue, ajoutez un objet thinking, avec le paramètre thinking défini sur enabled et le budget_tokens sur un budget de tokens spécifié pour la réflexion étendue.

Le paramètre budget_tokens détermine le nombre maximum de tokens que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s’applique aux tokens de réflexion complète, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité des réponses en permettant une analyse plus approfondie des problèmes complexes, bien que Claude puisse ne pas utiliser l’intégralité du budget alloué, en particulier pour des plages supérieures à 32k.

budget_tokens doit être défini à une valeur inférieure à max_tokens. Cependant, lors de l’utilisation de la réflexion entrelacée avec des outils, vous pouvez dépasser cette limite car la limite de tokens devient votre fenêtre de contexte entière (200k tokens).

Réflexion résumée

Avec la réflexion étendue activée, l’API Messages pour les modèles Claude 4 renvoie un résumé du processus de réflexion complet de Claude. La réflexion résumée offre tous les avantages intellectuels de la réflexion étendue, tout en empêchant les utilisations abusives.

Voici quelques considérations importantes pour la réflexion résumée :

  • Vous êtes facturé pour les tokens de réflexion complète générés par la requête originale, pas pour les tokens du résumé.
  • Le nombre de tokens de sortie facturés ne correspondra pas au nombre de tokens que vous voyez dans la réponse.
  • Les premières lignes de la sortie de réflexion sont plus détaillées, fournissant un raisonnement détaillé particulièrement utile pour l’ingénierie des prompts.
  • Alors qu’Anthropic cherche à améliorer la fonctionnalité de réflexion étendue, le comportement de résumé est susceptible de changer.
  • La résumation préserve les idées clés du processus de réflexion de Claude avec une latence minimale ajoutée, permettant une expérience utilisateur diffusable et une migration facile des modèles Claude 3.7 vers les modèles Claude 4.
  • La résumation est traitée par un modèle différent de celui que vous ciblez dans vos requêtes. Le modèle de réflexion ne voit pas la sortie résumée.

Claude Sonnet 3.7 continue de renvoyer la sortie de réflexion complète.

Dans les rares cas où vous avez besoin d’accéder à la sortie de réflexion complète pour les modèles Claude 4, contactez notre équipe commerciale.

Diffusion en continu de la réflexion

Vous pouvez diffuser en continu les réponses de réflexion étendue en utilisant les événements envoyés par le serveur (SSE).

Lorsque la diffusion en continu est activée pour la réflexion étendue, vous recevez du contenu de réflexion via des événements thinking_delta.

Pour plus de documentation sur la diffusion en continu via l’API Messages, consultez Diffusion en continu des messages.

Voici comment gérer la diffusion en continu avec la réflexion :

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Combien font 27 * 453 ?"
        }
    ]
}'

Exemple de sortie en continu :

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-20250514", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Résolvons cela étape par étape :\n\n1. D'abord décomposons 27 * 453"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}

// Deltas de réflexion supplémentaires...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12 231"}}

// Deltas de texte supplémentaires...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Lorsque vous utilisez la diffusion en continu avec la réflexion activée, vous pourriez remarquer que le texte arrive parfois en plus gros morceaux alternant avec une livraison plus petite, token par token. C’est un comportement attendu, en particulier pour le contenu de réflexion.

Le système de diffusion en continu doit traiter le contenu par lots pour des performances optimales, ce qui peut entraîner ce modèle de livraison “par morceaux”, avec des délais possibles entre les événements de diffusion. Nous travaillons continuellement à améliorer cette expérience, avec des mises à jour futures axées sur une diffusion plus fluide du contenu de réflexion.

Réflexion étendue avec utilisation d’outils

La réflexion étendue peut être utilisée avec l’utilisation d’outils, permettant à Claude de raisonner sur la sélection d’outils et le traitement des résultats.

Lorsque vous utilisez la réflexion étendue avec des outils, soyez conscient des limitations suivantes :

  1. Limitation du choix d’outil : L’utilisation d’outils avec réflexion ne prend en charge que tool_choice: any (pas specific, auto, ou d’autres valeurs).

  2. Préservation des blocs de réflexion : Lors de l’utilisation d’outils, vous devez renvoyer les blocs thinking à l’API pour le dernier message de l’assistant. Incluez le bloc complet non modifié à l’API pour maintenir la continuité du raisonnement.

Préservation des blocs de réflexion

Lors de l’utilisation d’outils, vous devez renvoyer les blocs thinking à l’API, et vous devez inclure le bloc complet non modifié à l’API. C’est essentiel pour maintenir le flux de raisonnement du modèle et l’intégrité de la conversation.

Bien que vous puissiez omettre les blocs thinking des tours précédents du rôle assistant, nous suggérons de toujours renvoyer tous les blocs de réflexion à l’API pour toute conversation à plusieurs tours. L’API va :

  • Filtrer automatiquement les blocs de réflexion fournis
  • Utiliser les blocs de réflexion pertinents nécessaires pour préserver le raisonnement du modèle
  • Facturer uniquement les tokens d’entrée pour les blocs montrés à Claude

Lorsque Claude invoque des outils, il met en pause la construction de sa réponse pour attendre des informations externes. Lorsque les résultats des outils sont renvoyés, Claude continuera à construire cette réponse existante. Cela nécessite de préserver les blocs de réflexion pendant l’utilisation des outils, pour plusieurs raisons :

  1. Continuité du raisonnement : Les blocs de réflexion capturent le raisonnement étape par étape de Claude qui a conduit aux demandes d’outils. Lorsque vous publiez des résultats d’outils, l’inclusion de la réflexion originale garantit que Claude peut poursuivre son raisonnement là où il s’était arrêté.

  2. Maintien du contexte : Bien que les résultats des outils apparaissent comme des messages utilisateur dans la structure de l’API, ils font partie d’un flux de raisonnement continu. La préservation des blocs de réflexion maintient ce flux conceptuel à travers plusieurs appels d’API. Pour plus d’informations sur la gestion du contexte, consultez notre guide sur les fenêtres de contexte.

Important : Lorsque vous fournissez des blocs thinking, la séquence entière de blocs thinking consécutifs doit correspondre aux sorties générées par le modèle lors de la requête originale ; vous ne pouvez pas réorganiser ou modifier la séquence de ces blocs.

Réflexion entrelacée

La réflexion étendue avec utilisation d’outils dans les modèles Claude 4 prend en charge la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d’outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats des outils.

Avec la réflexion entrelacée, Claude peut :

  • Raisonner sur les résultats d’un appel d’outil avant de décider quoi faire ensuite
  • Enchaîner plusieurs appels d’outils avec des étapes de raisonnement entre eux
  • Prendre des décisions plus nuancées basées sur des résultats intermédiaires

Pour activer la réflexion entrelacée, ajoutez l’en-tête bêta interleaved-thinking-2025-05-14 à votre requête API.

La réflexion entrelacée n’est prise en charge que pour les outils utilisés via l’API Messages.

Avec la réflexion entrelacée, le budget_tokens peut dépasser le paramètre max_tokens car il représente le budget total pour tous les blocs de réflexion au sein d’un tour d’assistant.

Réflexion étendue avec mise en cache des prompts

La mise en cache des prompts avec réflexion présente plusieurs considérations importantes :

Suppression des blocs de réflexion du contexte

  • Les blocs de réflexion des tours précédents sont supprimés du contexte, ce qui peut affecter les points de rupture du cache
  • Lors de la poursuite des conversations avec utilisation d’outils, les blocs de réflexion sont mis en cache et comptent comme des tokens d’entrée lorsqu’ils sont lus depuis le cache
  • Cela crée un compromis : bien que les blocs de réflexion ne consomment pas d’espace dans la fenêtre de contexte visuellement, ils comptent toujours dans votre utilisation de tokens d’entrée lorsqu’ils sont mis en cache
  • Si la réflexion devient désactivée, les requêtes échoueront si vous transmettez du contenu de réflexion dans le tour d’utilisation d’outil actuel. Dans d’autres contextes, le contenu de réflexion transmis à l’API est simplement ignoré

Modèles d’invalidation du cache

  • Les modifications des paramètres de réflexion (activé/désactivé ou allocation de budget) invalident les points de rupture du cache des messages
  • La réflexion entrelacée amplifie l’invalidation du cache, car les blocs de réflexion peuvent se produire entre plusieurs appels d’outils
  • Les prompts système et les outils restent mis en cache malgré les changements de paramètres de réflexion ou la suppression de blocs

Bien que les blocs de réflexion soient supprimés pour la mise en cache et les calculs de contexte, ils doivent être préservés lors de la poursuite des conversations avec utilisation d’outils, en particulier avec réflexion entrelacée.

Comprendre le comportement de mise en cache des blocs de réflexion

Lors de l’utilisation de la réflexion étendue avec des outils, les blocs de réflexion présentent un comportement de mise en cache spécifique qui affecte le comptage des tokens :

Comment ça marche :

  1. La mise en cache ne se produit que lorsque vous faites une requête ultérieure qui inclut des résultats d’outils
  2. Lorsque la requête ultérieure est faite, l’historique de conversation précédent (y compris les blocs de réflexion) peut être mis en cache
  3. Ces blocs de réflexion mis en cache comptent comme des tokens d’entrée dans vos métriques d’utilisation lorsqu’ils sont lus depuis le cache
  4. Lorsqu’un bloc utilisateur non-résultat-d’outil est inclus, tous les blocs de réflexion précédents sont ignorés et supprimés du contexte

Exemple détaillé de flux :

Requête 1 :

Utilisateur : "Quel temps fait-il à Paris ?"

Réponse 1 :

[thinking_block_1] + [tool_use block 1]

Requête 2 :

Utilisateur : ["Quel temps fait-il à Paris ?"], 
Assistant : [thinking_block_1] + [tool_use block 1], 
Utilisateur : [tool_result_1, cache=True]

Réponse 2 :

[thinking_block_2] + [text block 2]

La requête 2 écrit un cache du contenu de la requête (pas de la réponse). Le cache inclut le message utilisateur original, le premier bloc de réflexion, le bloc d’utilisation d’outil et le résultat de l’outil.

Requête 3 :

Utilisateur : ["Quel temps fait-il à Paris ?"], 
Assistant : [thinking_block_1] + [tool_use block 1], 
Utilisateur : [tool_result_1, cache=True], 
Assistant : [thinking_block_2] + [text block 2], 
Utilisateur : [Réponse textuelle, cache=True]

Comme un bloc utilisateur non-résultat-d’outil a été inclus, tous les blocs de réflexion précédents sont ignorés. Cette requête sera traitée de la même manière que :

Utilisateur : ["Quel temps fait-il à Paris ?"], 
Assistant : [tool_use block 1], 
Utilisateur : [tool_result_1, cache=True], 
Assistant : [text block 2], 
Utilisateur : [Réponse textuelle, cache=True]

Points clés :

  • Ce comportement de mise en cache se produit automatiquement, même sans marqueurs cache_control explicites
  • Ce comportement est cohérent, que vous utilisiez la réflexion régulière ou la réflexion entrelacée

Tokens maximum et taille de la fenêtre de contexte avec réflexion étendue

Dans les modèles Claude plus anciens (avant Claude Sonnet 3.7), si la somme des tokens du prompt et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajustait automatiquement max_tokens pour s’adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de réflexion lorsque la réflexion est activée) est appliqué comme une limite stricte. Le système renverra désormais une erreur de validation si les tokens du prompt + max_tokens dépassent la taille de la fenêtre de contexte.

Vous pouvez consulter notre guide sur les fenêtres de contexte pour une analyse plus approfondie.

La fenêtre de contexte avec réflexion étendue

Lors du calcul de l’utilisation de la fenêtre de contexte avec la réflexion activée, il y a quelques considérations à prendre en compte :

  • Les blocs de réflexion des tours précédents sont supprimés et ne sont pas comptés dans votre fenêtre de contexte
  • La réflexion du tour actuel compte dans votre limite max_tokens pour ce tour

Le diagramme ci-dessous illustre la gestion spécialisée des tokens lorsque la réflexion étendue est activée :

La fenêtre de contexte effective est calculée comme suit :

fenêtre de contexte =
  (tokens d'entrée actuels - tokens de réflexion précédents) +
  (tokens de réflexion + tokens de réflexion chiffrés + tokens de sortie de texte)

Nous recommandons d’utiliser l’API de comptage de tokens pour obtenir des décomptes de tokens précis pour votre cas d’utilisation spécifique, en particulier lorsque vous travaillez avec des conversations à plusieurs tours qui incluent de la réflexion.

La fenêtre de contexte avec réflexion étendue et utilisation d’outils

Lors de l’utilisation de la réflexion étendue avec des outils, les blocs de réflexion doivent être explicitement préservés et renvoyés avec les résultats des outils.

Le calcul de la fenêtre de contexte effective pour la réflexion étendue avec utilisation d’outils devient :

fenêtre de contexte =
  (tokens d'entrée actuels + tokens de réflexion précédents + tokens d'utilisation d'outils) +
  (tokens de réflexion + tokens de réflexion chiffrés + tokens de sortie de texte)

Le diagramme ci-dessous illustre la gestion des tokens pour la réflexion étendue avec utilisation d’outils :

Gestion des tokens avec réflexion étendue

Étant donné le comportement de la fenêtre de contexte et de max_tokens avec les modèles Claude 3.7 et 4 à réflexion étendue, vous devrez peut-être :

  • Surveiller et gérer plus activement votre utilisation de tokens
  • Ajuster les valeurs max_tokens à mesure que la longueur de votre prompt change
  • Potentiellement utiliser les points de terminaison de comptage de tokens plus fréquemment
  • Être conscient que les blocs de réflexion précédents ne s’accumulent pas dans votre fenêtre de contexte

Ce changement a été fait pour fournir un comportement plus prévisible et transparent, en particulier alors que les limites maximales de tokens ont considérablement augmenté.

Chiffrement de la réflexion

Le contenu complet de la réflexion est chiffré et renvoyé dans le champ signature. Ce champ est utilisé pour vérifier que les blocs de réflexion ont été générés par Claude lorsqu’ils sont renvoyés à l’API. Lors de la diffusion en continu des réponses, la signature est ajoutée via un signature_delta à l’intérieur d’un événement content_block_delta juste avant l’événement content_block_stop.

Notez que le champ signature sera significativement plus long que dans les modèles précédents. C’est un champ opaque qui ne doit pas être interprété ou analysé - il existe uniquement à des fins de vérification.

Il n’est strictement nécessaire de renvoyer les blocs de réflexion que lors de l’utilisation d’outils avec réflexion étendue. Sinon, vous pouvez omettre les blocs de réflexion des tours précédents, ou laisser l’API les supprimer pour vous si vous les renvoyez.

Si vous renvoyez des blocs de réflexion, nous recommandons de tout renvoyer tel que vous l’avez reçu pour la cohérence et pour éviter d’éventuels problèmes.

Expurgation de la réflexion

Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Lorsque cela se produit, nous chiffrons une partie ou la totalité du bloc thinking et vous le renvoyons sous forme de bloc redacted_thinking. Les blocs redacted_thinking sont déchiffrés lorsqu’ils sont renvoyés à l’API, permettant à Claude de continuer sa réponse sans perdre de contexte.

Lors de la création d’applications destinées aux clients qui utilisent la réflexion étendue :

  • Soyez conscient que les blocs de réflexion expurgés contiennent du contenu chiffré qui n’est pas lisible par l’homme
  • Envisagez de fournir une explication simple comme : “Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n’affecte pas la qualité des réponses.”
  • Si vous montrez des blocs de réflexion aux utilisateurs, vous pouvez filtrer les blocs expurgés tout en préservant les blocs de réflexion normaux
  • Soyez transparent sur le fait que l’utilisation des fonctionnalités de réflexion étendue peut occasionnellement entraîner le chiffrement de certains raisonnements
  • Implémentez une gestion d’erreurs appropriée pour gérer gracieusement la réflexion expurgée sans casser votre interface utilisateur

Voici un exemple montrant à la fois des blocs de réflexion normaux et expurgés :

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Analysons cela étape par étape...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "D'après mon analyse..."
    }
  ]
}

Voir des blocs de réflexion expurgés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement expurgé pour informer ses réponses tout en maintenant les garde-fous de sécurité.

Si vous avez besoin de tester la gestion de la réflexion expurgée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme prompt : ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

Lorsque vous transmettez des blocs thinking et redacted_thinking à l’API dans une conversation à plusieurs tours, vous devez inclure le bloc complet non modifié à l’API pour le dernier tour de l’assistant. C’est essentiel pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours renvoyer tous les blocs de réflexion à l’API. Pour plus de détails, consultez la section Préservation des blocs de réflexion ci-dessus.

Différences de réflexion entre les versions de modèles

L’API Messages gère la réflexion différemment entre les modèles Claude Sonnet 3.7 et Claude 4, principalement dans le comportement d’expurgation et de résumé.

Consultez le tableau ci-dessous pour une comparaison condensée :

FonctionnalitéClaude Sonnet 3.7Modèles Claude 4
Sortie de réflexionRenvoie la sortie de réflexion complèteRenvoie la réflexion résumée
Réflexion entrelacéeNon prise en chargePrise en charge avec l’en-tête bêta interleaved-thinking-2025-05-14

Tarification

La réflexion étendue utilise le schéma de tarification standard des tokens :

ModèleTokens d’entrée de baseÉcritures de cacheHits de cacheTokens de sortie
Claude Opus 415 $ / MTok18,75 $ / MTok1,50 $ / MTok75 $ / MTok
Claude Sonnet 43 $ / MTok3,75 $ / MTok0,30 $ / MTok15 $ / MTok
Claude Sonnet 3.73 $ / MTok3,75 $ / MTok0,30 $ / MTok15 $ / MTok

Le processus de réflexion entraîne des frais pour :

  • Les tokens utilisés pendant la réflexion (tokens de sortie)
  • Les blocs de réflexion du dernier tour de l’assistant inclus dans les requêtes suivantes (tokens d’entrée)
  • Les tokens de sortie de texte standard

Lorsque la réflexion étendue est activée, un prompt système spécialisé est automatiquement inclus pour prendre en charge cette fonctionnalité.

Lors de l’utilisation de la réflexion résumée :

  • Tokens d’entrée : Tokens dans votre requête originale (exclut les tokens de réflexion des tours précédents)
  • Tokens de sortie (facturés) : Les tokens de réflexion originaux que Claude a générés en interne
  • Tokens de sortie (visibles) : Les tokens de réflexion résumés que vous voyez dans la réponse
  • Pas de frais : Tokens utilisés pour générer le résumé

Le nombre de tokens de sortie facturés ne correspondra pas au nombre de tokens visibles dans la réponse. Vous êtes facturé pour le processus de réflexion complet, pas pour le résumé que vous voyez.

Meilleures pratiques et considérations pour la réflexion étendue

Travailler avec les budgets de réflexion

  • Optimisation du budget : Le budget minimum est de 1 024 tokens. Nous suggérons de commencer par le minimum et d’augmenter progressivement le budget de réflexion pour trouver la plage optimale pour votre cas d’utilisation. Des nombres de tokens plus élevés permettent un raisonnement plus complet, mais avec des rendements décroissants selon la tâche. L’augmentation du budget peut améliorer la qualité des réponses au prix d’une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l’équilibre optimal. Notez que le budget de réflexion est un objectif plutôt qu’une limite stricte—l’utilisation réelle des tokens peut varier en fonction de la tâche.
  • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ tokens) pour les tâches complexes et ajustez en fonction de vos besoins.
  • Grands budgets : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d’utiliser le traitement par lots pour éviter les problèmes de réseau. Les requêtes poussant le modèle à réfléchir au-delà de 32k tokens provoquent des requêtes de longue durée qui pourraient se heurter aux délais d’attente du système et aux limites de connexions ouvertes.
  • Suivi de l’utilisation des tokens : Surveillez l’utilisation des tokens de réflexion pour optimiser les coûts et les performances.

Considérations de performance

  • Temps de réponse : Soyez prêt à des temps de réponse potentiellement plus longs en raison du traitement supplémentaire requis pour le processus de raisonnement. Tenez compte du fait que la génération de blocs de réflexion peut augmenter le temps de réponse global.
  • Exigences de diffusion en continu : La diffusion en continu est requise lorsque max_tokens est supérieur à 21 333. Lors de la diffusion en continu, soyez prêt à gérer à la fois les blocs de contenu de réflexion et de texte à leur arrivée.

Compatibilité des fonctionnalités

  • La réflexion n’est pas compatible avec les modifications de temperature ou top_k ainsi qu’avec l’utilisation forcée d’outils.
  • Lorsque la réflexion est activée, vous pouvez définir top_p à des valeurs entre 1 et 0,95.
  • Vous ne pouvez pas pré-remplir les réponses lorsque la réflexion est activée.
  • Les modifications du budget de réflexion invalident les préfixes de prompt mis en cache qui incluent des messages. Cependant, les prompts système mis en cache et les définitions d’outils continueront à fonctionner lorsque les paramètres de réflexion changent.

Directives d’utilisation

  • Sélection des tâches : Utilisez la réflexion étendue pour des tâches particulièrement complexes qui bénéficient d’un raisonnement étape par étape comme les mathématiques, la programmation et l’analyse.
  • Gestion du contexte : Vous n’avez pas besoin de supprimer vous-même les blocs de réflexion précédents. L’API Anthropic ignore automatiquement les blocs de réflexion des tours précédents et ils ne sont pas inclus dans le calcul de l’utilisation du contexte.
  • Ingénierie de prompt : Consultez nos conseils d’ingénierie de prompt pour la réflexion étendue si vous souhaitez maximiser les capacités de réflexion de Claude.

Prochaines étapes