claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
Inhaltsblöcke, in denen es seine interne Argumentation ausgibt. Claude integriert Erkenntnisse aus dieser Argumentation, bevor es eine endgültige Antwort erstellt.
Die API-Antwort wird thinking
Inhaltsblöcke enthalten, gefolgt von text
Inhaltsblöcken.
Hier ist ein Beispiel des Standard-Antwortformats:
thinking
Objekt hinzu, mit dem type
Parameter auf enabled
gesetzt und den budget_tokens
auf ein spezifiziertes Token-Budget für erweitertes Denken.
Der budget_tokens
Parameter bestimmt die maximale Anzahl von Tokens, die Claude für seinen internen Argumentationsprozess verwenden darf. In Claude 4 Modellen gilt dieses Limit für vollständige Denk-Tokens und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget verwendet, insbesondere bei Bereichen über 32k.
budget_tokens
muss auf einen Wert kleiner als max_tokens
gesetzt werden. Jedoch können Sie bei der Verwendung von verschachteltem Denken mit Tools dieses Limit überschreiten, da das Token-Limit zu Ihrem gesamten Kontextfenster (200k Tokens) wird.
thinking_delta
Events.
Für weitere Dokumentation über Streaming über die Messages API siehe Streaming Messages.
Hier ist, wie Sie Streaming mit Denken handhaben:
tool_choice: {"type": "auto"}
(der Standard) oder tool_choice: {"type": "none"}
. Die Verwendung von tool_choice: {"type": "any"}
oder tool_choice: {"type": "tool", "name": "..."}
führt zu einem Fehler, da diese Optionen Tool-Verwendung erzwingen, was mit erweitertem Denken inkompatibel ist.
thinking
Blöcke an die API für die letzte Assistenten-Nachricht zurückgeben. Fügen Sie den vollständigen unveränderten Block zurück zur API hinzu, um die Argumentationskontinuität zu erhalten.
Beispiel: Übergabe von Denk-Blöcken mit Tool-Ergebnissen
thinking
Blöcke bewahrt, wenn Tool-Ergebnisse bereitgestellt werden:thinking
Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block zurück zur API einschließen. Dies ist kritisch für die Aufrechterhaltung des Argumentationsflusses des Modells und der Gesprächsintegrität.
thinking
Blöcke aus vorherigen assistant
Rollen-Wendungen weglassen können, empfehlen wir, immer alle Denk-Blöcke für jedes mehrstufige Gespräch an die API zurückzugeben. Die API wird:thinking
Blöcken muss die gesamte Sequenz aufeinanderfolgender thinking
Blöcke mit den Ausgaben übereinstimmen, die vom Modell während der ursprünglichen Anfrage generiert wurden; Sie können die Sequenz dieser Blöcke nicht neu anordnen oder modifizieren.
interleaved-thinking-2025-05-14
zu Ihrer API-Anfrage hinzu.
Hier sind einige wichtige Überlegungen für verschachteltes Denken:
budget_tokens
den max_tokens
Parameter überschreiten, da es das Gesamtbudget über alle Denk-Blöcke innerhalb einer Assistenten-Wendung darstellt.interleaved-thinking-2025-05-14
unterstützt.interleaved-thinking-2025-05-14
in Anfragen an jedes Modell zu übergeben, ohne Wirkung.interleaved-thinking-2025-05-14
an ein anderes Modell als Claude Opus 4.1, Opus 4 oder Sonnet 4 übergeben, wird Ihre Anfrage fehlschlagen.Tool-Verwendung ohne verschachteltes Denken
Tool-Verwendung mit verschachteltem Denken
cache_control
MarkierungenSystem-Prompt-Caching (bewahrt bei Denk-Änderungen)
Nachrichten-Caching (invalidiert bei Denk-Änderungen)
cache_creation_input_tokens=1370
und cache_read_input_tokens=0
, was beweist, dass nachrichten-basiertes Caching invalidiert wird, wenn sich Denk-Parameter ändern.max_tokens
das Kontextfenster des Modells überschritt, würde das System automatisch max_tokens
anpassen, um in das Kontextlimit zu passen. Das bedeutete, Sie konnten einen großen max_tokens
Wert setzen und das System würde ihn bei Bedarf stillschweigend reduzieren.
Mit Claude 3.7 und 4 Modellen wird max_tokens
(was Ihr Denk-Budget einschließt, wenn Denken aktiviert ist) als striktes Limit durchgesetzt. Das System wird jetzt einen Validierungsfehler zurückgeben, wenn Prompt-Tokens + max_tokens
die Kontextfenstergröße überschreitet.
max_tokens
Limit für diese Wendungmax_tokens
Verhaltens mit erweiterten Denk-Claude 3.7 und 4 Modellen müssen Sie möglicherweise:
max_tokens
Werte anpassen, wenn sich Ihre Prompt-Länge ändertsignature
Feld zurückgegeben. Dieses Feld wird verwendet, um zu verifizieren, dass Denk-Blöcke von Claude generiert wurden, wenn sie an die API zurückgegeben werden.
signature_delta
innerhalb eines content_block_delta
Events kurz vor dem content_block_stop
Event hinzugefügt.signature
Werte sind in Claude 4 Modellen erheblich länger als in vorherigen Modellen.signature
Feld ist ein undurchsichtiges Feld und sollte nicht interpretiert oder geparst werden - es existiert ausschließlich für Verifizierungszwecke.signature
Werte sind plattformübergreifend kompatibel (Anthropic APIs, Amazon Bedrock und Vertex AI). Werte, die auf einer Plattform generiert wurden, sind mit einer anderen kompatibel.thinking
Blöcke und geben sie als redacted_thinking
Block an Sie zurück. redacted_thinking
Blöcke werden entschlüsselt, wenn sie an die API zurückgegeben werden, wodurch Claude seine Antwort ohne Kontextverlust fortsetzen kann.
Beim Erstellen kundenorientierter Anwendungen, die erweitertes Denken verwenden:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
und redacted_thinking
Blöcken an die API in einem mehrstufigen Gespräch müssen Sie den vollständigen unveränderten Block für die letzte Assistenten-Wendung zurück zur API einschließen. Dies ist kritisch für die Aufrechterhaltung des Argumentationsflusses des Modells. Wir empfehlen, immer alle Denk-Blöcke an die API zurückzugeben. Für weitere Details siehe den Abschnitt Bewahrung von Denk-Blöcken oben.
Beispiel: Arbeiten mit redigierten Denk-Blöcken
redacted_thinking
Blöcken umgeht, die in Antworten erscheinen können, wenn Claudes interne Argumentation Inhalte enthält, die von Sicherheitssystemen markiert wurden:Feature | Claude Sonnet 3.7 | Claude 4 Modelle |
---|---|---|
Denk-Ausgabe | Gibt vollständige Denk-Ausgabe zurück | Gibt zusammengefasste Denk-Ausgabe zurück |
Verschachteltes Denken | Nicht unterstützt | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header |
Modell | Basis-Eingabe-Tokens | Cache-Schreibvorgänge | Cache-Treffer | Ausgabe-Tokens |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
max_tokens
größer als 21.333 ist. Beim Streaming seien Sie darauf vorbereitet, sowohl Denk- als auch Text-Inhaltsblöcke zu handhaben, wenn sie ankommen.temperature
oder top_k
Modifikationen sowie erzwungener Tool-Verwendung.top_p
auf Werte zwischen 1 und 0,95 setzen.