claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
où il produit son raisonnement interne. Claude intègre les insights de ce raisonnement avant de créer une réponse finale.
La réponse de l’API inclura des blocs de contenu thinking
, suivis de blocs de contenu text
.
Voici un exemple du format de réponse par défaut :
thinking
, avec le paramètre type
défini sur enabled
et le budget_tokens
sur un budget de tokens spécifié pour la pensée étendue.
Le paramètre budget_tokens
détermine le nombre maximum de tokens que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s’applique aux tokens de pensée complets, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité de la réponse en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude puisse ne pas utiliser tout le budget alloué, surtout dans les plages supérieures à 32k.
budget_tokens
doit être défini sur une valeur inférieure à max_tokens
. Cependant, lors de l’utilisation de la pensée entrelacée avec les outils, vous pouvez dépasser cette limite car la limite de tokens devient votre fenêtre de contexte entière (200k tokens).
thinking_delta
.
Pour plus de documentation sur la diffusion via l’API Messages, voir Diffusion de Messages.
Voici comment gérer la diffusion avec la pensée :
tool_choice: {"type": "auto"}
(par défaut) ou tool_choice: {"type": "none"}
. L’utilisation de tool_choice: {"type": "any"}
ou tool_choice: {"type": "tool", "name": "..."}
résultera en une erreur car ces options forcent l’utilisation d’outils, ce qui est incompatible avec la pensée étendue.
thinking
de retour à l’API pour le dernier message assistant. Incluez le bloc complet non modifié de retour à l’API pour maintenir la continuité du raisonnement.
Exemple : Passer des blocs de pensée avec des résultats d'outils
thinking
de retour à l’API, et vous devez inclure le bloc complet non modifié de retour à l’API. Ceci est critique pour maintenir le flux de raisonnement du modèle et l’intégrité de la conversation.
thinking
des tours assistant
précédents, nous suggérons de toujours passer tous les blocs de pensée de retour à l’API pour toute conversation multi-tours. L’API va :thinking
, toute la séquence de blocs thinking
consécutifs doit correspondre aux sorties générées par le modèle pendant la demande originale ; vous ne pouvez pas réarranger ou modifier la séquence de ces blocs.
interleaved-thinking-2025-05-14
à votre demande API.
Voici quelques considérations importantes pour la pensée entrelacée :
budget_tokens
peut dépasser le paramètre max_tokens
, car il représente le budget total à travers tous les blocs de pensée dans un tour assistant.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
dans les demandes à n’importe quel modèle, sans effet.interleaved-thinking-2025-05-14
à n’importe quel modèle autre que Claude Opus 4.1, Opus 4, ou Sonnet 4, votre demande échouera.Utilisation d'outils sans pensée entrelacée
Utilisation d'outils avec pensée entrelacée
cache_control
explicitesMise en cache de prompt système (préservée quand la pensée change)
Mise en cache de messages (invalidée quand la pensée change)
cache_creation_input_tokens=1370
et cache_read_input_tokens=0
, prouvant que la mise en cache basée sur les messages est invalidée quand les paramètres de pensée changent.max_tokens
dépassait la fenêtre de contexte du modèle, le système ajustait automatiquement max_tokens
pour s’adapter dans la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens
et le système la réduirait silencieusement selon les besoins.
Avec les modèles Claude 3.7 et 4, max_tokens
(qui inclut votre budget de pensée quand la pensée est activée) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si tokens de prompt + max_tokens
dépasse la taille de la fenêtre de contexte.
max_tokens
pour ce tourmax_tokens
avec les modèles de pensée étendue Claude 3.7 et 4, vous pourriez avoir besoin de :
max_tokens
à mesure que votre longueur de prompt changesignature
. Ce champ est utilisé pour vérifier que les blocs de pensée ont été générés par Claude quand passés de retour à l’API.
signature_delta
à l’intérieur d’un événement content_block_delta
juste avant l’événement content_block_stop
.signature
sont significativement plus longues dans les modèles Claude 4 que dans les modèles précédents.signature
est un champ opaque et ne devrait pas être interprété ou analysé - il existe uniquement à des fins de vérification.signature
sont compatibles à travers les plateformes (APIs Anthropic, Amazon Bedrock, et Vertex AI). Les valeurs générées sur une plateforme seront compatibles avec une autre.thinking
et vous le retournons comme un bloc redacted_thinking
. Les blocs redacted_thinking
sont déchiffrés quand passés de retour à l’API, permettant à Claude de continuer sa réponse sans perdre le contexte.
Lors de la construction d’applications orientées client qui utilisent la pensée étendue :
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
et redacted_thinking
de retour à l’API dans une conversation multi-tours, vous devez inclure le bloc complet non modifié de retour à l’API pour le dernier tour assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours passer tous les blocs de pensée de retour à l’API. Pour plus de détails, voir la section Préservation des blocs de pensée ci-dessus.
Exemple : Travailler avec des blocs de pensée rédactés
redacted_thinking
qui peuvent apparaître dans les réponses quand le raisonnement interne de Claude contient du contenu signalé par les systèmes de sécurité :Fonctionnalité | Claude Sonnet 3.7 | Modèles Claude 4 |
---|---|---|
Sortie de Pensée | Retourne la sortie de pensée complète | Retourne la pensée résumée |
Pensée Entrelacée | Non prise en charge | Prise en charge avec l’en-tête beta interleaved-thinking-2025-05-14 |
Modèle | Tokens d’Entrée de Base | Écritures de Cache | Hits de Cache | Tokens de Sortie |
---|---|---|---|---|
Claude Opus 4.1 | 15$ / MTok | 18,75$ / MTok | 1,50$ / MTok | 75$ / MTok |
Claude Opus 4 | 15$ / MTok | 18,75$ / MTok | 1,50$ / MTok | 75$ / MTok |
Claude Sonnet 4 | 3$ / MTok | 3,75$ / MTok | 0,30$ / MTok | 15$ / MTok |
Claude Sonnet 3.7 | 3$ / MTok | 3,75$ / MTok | 0,30$ / MTok | 15$ / MTok |
max_tokens
est supérieur à 21 333. Lors de la diffusion, préparez-vous à gérer à la fois les blocs de contenu de pensée et de texte à mesure qu’ils arrivent.temperature
ou top_k
ainsi qu’avec l’utilisation forcée d’outils.top_p
à des valeurs entre 1 et 0,95.