Das Kontextfenster verstehen

Das “Kontextfenster” bezieht sich auf die Gesamtmenge an Text, auf die ein Sprachmodell zurückblicken und Bezug nehmen kann, wenn es neuen Text generiert, plus den neu generierten Text. Dies unterscheidet sich von dem großen Datenkorpus, mit dem das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Prompts zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Prompts zu verarbeiten oder Kohärenz über längere Gespräche hinweg aufrechtzuerhalten.

Das folgende Diagramm veranschaulicht das Standardverhalten des Kontextfensters für API-Anfragen1:

1Für Chat-Schnittstellen wie claude.ai können Kontextfenster auch nach dem “First in, First out”-Prinzip eingerichtet werden.

  • Progressive Token-Akkumulation: Mit dem Fortschreiten des Gesprächs durch die einzelnen Turns sammeln sich die Nachrichten des Benutzers und die Antworten des Assistenten im Kontextfenster an. Frühere Turns werden vollständig beibehalten.
  • Lineares Wachstumsmuster: Die Kontextnutzung wächst linear mit jedem Turn, wobei frühere Turns vollständig erhalten bleiben.
  • 200K Token-Kapazität: Das gesamte verfügbare Kontextfenster (200.000 Token) stellt die maximale Kapazität für die Speicherung des Gesprächsverlaufs und die Generierung neuer Ausgaben von Claude dar.
  • Eingabe-Ausgabe-Fluss: Jeder Turn besteht aus:
    • Eingabephase: Enthält den gesamten vorherigen Gesprächsverlauf plus die aktuelle Benutzernachricht
    • Ausgabephase: Generiert eine Textantwort, die Teil einer zukünftigen Eingabe wird

Das Kontextfenster mit erweitertem Denken

Bei der Verwendung von erweitertem Denken werden alle Eingabe- und Ausgabe-Token, einschließlich der für das Denken verwendeten Token, auf das Kontextfensterlimit angerechnet, wobei es einige Nuancen in Situationen mit mehreren Turns gibt.

Die Token für das Denkbudget sind eine Teilmenge Ihres max_tokens-Parameters, werden als Ausgabe-Token abgerechnet und werden auf Ratenlimits angerechnet.

Frühere Denkblöcke werden jedoch automatisch aus der Kontextfensterberechnung durch die Anthropic-API entfernt und sind nicht Teil des Gesprächsverlaufs, den das Modell für nachfolgende Turns “sieht”, wodurch die Token-Kapazität für den eigentlichen Gesprächsinhalt erhalten bleibt.

Das folgende Diagramm zeigt das spezielle Token-Management, wenn erweitertes Denken aktiviert ist:

  • Entfernen des erweiterten Denkens: Erweiterte Denkblöcke (in dunkelgrau dargestellt) werden während der Ausgabephase jedes Turns generiert, werden aber nicht als Eingabe-Token für nachfolgende Turns übernommen. Sie müssen die Denkblöcke nicht selbst entfernen. Die Anthropic-API erledigt dies automatisch für Sie, wenn Sie sie zurückgeben.
  • Technische Implementierungsdetails:
    • Die API schließt automatisch Denkblöcke aus früheren Turns aus, wenn Sie sie als Teil des Gesprächsverlaufs zurückgeben.
    • Erweiterte Denk-Token werden nur einmal als Ausgabe-Token abgerechnet, während ihrer Generierung.
    • Die effektive Kontextfensterberechnung wird: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Denk-Token umfassen sowohl thinking-Blöcke als auch redacted_thinking-Blöcke.

Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erheblich in der Länge sein können.

Weitere Informationen zum Kontextfenster und erweitertem Denken finden Sie in unserem Leitfaden zum erweiterten Denken.

Das Kontextfenster mit erweitertem Denken und Tool-Nutzung

Das folgende Diagramm veranschaulicht das Token-Management des Kontextfensters bei der Kombination von erweitertem Denken mit Tool-Nutzung:

1

Architektur des ersten Turns

  • Eingabekomponenten: Tool-Konfiguration und Benutzernachricht
  • Ausgabekomponenten: Erweitertes Denken + Textantwort + Tool-Nutzungsanfrage
  • Token-Berechnung: Alle Eingabe- und Ausgabekomponenten werden auf das Kontextfenster angerechnet, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
2

Verarbeitung der Tool-Ergebnisse (Turn 2)

  • Eingabekomponenten: Jeder Block im ersten Turn sowie das tool_result. Der erweiterte Denkblock muss mit den entsprechenden Tool-Ergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.
  • Ausgabekomponenten: Nachdem die Tool-Ergebnisse an Claude zurückgegeben wurden, antwortet Claude nur mit Text (kein zusätzliches erweitertes Denken bis zur nächsten user-Nachricht).
  • Token-Berechnung: Alle Eingabe- und Ausgabekomponenten werden auf das Kontextfenster angerechnet, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
3

Dritter Schritt

  • Eingabekomponenten: Alle Eingaben und die Ausgabe aus dem vorherigen Turn werden übernommen, mit Ausnahme des Denkblocks, der jetzt entfernt werden kann, nachdem Claude den gesamten Tool-Nutzungszyklus abgeschlossen hat. Die API entfernt den Denkblock automatisch für Sie, wenn Sie ihn zurückgeben, oder Sie können ihn in dieser Phase selbst entfernen. Hier würden Sie auch den nächsten User-Turn hinzufügen.
  • Ausgabekomponenten: Da es einen neuen User-Turn außerhalb des Tool-Nutzungszyklus gibt, generiert Claude einen neuen erweiterten Denkblock und fährt von dort aus fort.
  • Token-Berechnung: Frühere Denk-Token werden automatisch aus den Kontextfensterberechnungen entfernt. Alle anderen früheren Blöcke zählen weiterhin als Teil des Token-Fensters, und der Denkblock im aktuellen Assistant-Turn zählt als Teil des Kontextfensters.
  • Überlegungen zur Tool-Nutzung mit erweitertem Denken:
    • Bei der Übermittlung von Tool-Ergebnissen muss der gesamte unveränderte Denkblock, der diese spezifische Tool-Anfrage begleitet (einschließlich Signatur/redigierter Teile), enthalten sein.
    • Die effektive Kontextfensterberechnung für erweitertes Denken mit Tool-Nutzung wird: context_window = input_tokens + current_turn_tokens.
    • Das System verwendet kryptografische Signaturen, um die Authentizität von Denkblöcken zu überprüfen. Wenn Denkblöcke während der Tool-Nutzung nicht beibehalten werden, kann dies die Kontinuität von Claudes Denken unterbrechen. Wenn Sie Denkblöcke modifizieren, gibt die API daher einen Fehler zurück.

Claude 4-Modelle unterstützen verschachteltes Denken, das es Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach Erhalt von Tool-Ergebnissen komplexere Überlegungen anzustellen.

Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Tool-Aufrufen ohne einen nicht-tool_result-Benutzerturn dazwischen.

Weitere Informationen zur Verwendung von Tools mit erweitertem Denken finden Sie in unserem Leitfaden zum erweiterten Denken.

Kontextfensterverwaltung mit neueren Claude-Modellen

Bei neueren Claude-Modellen (beginnend mit Claude Sonnet 3.7) gibt das System einen Validierungsfehler zurück, wenn die Summe aus Prompt-Token und Ausgabe-Token das Kontextfenster des Modells überschreitet, anstatt den Kontext stillschweigend zu kürzen. Diese Änderung sorgt für ein vorhersehbareres Verhalten, erfordert jedoch eine sorgfältigere Token-Verwaltung.

Um Ihre Token-Nutzung zu planen und sicherzustellen, dass Sie innerhalb der Kontextfenstergrenzen bleiben, können Sie die Token-Zähl-API verwenden, um abzuschätzen, wie viele Token Ihre Nachrichten verwenden werden, bevor Sie sie an Claude senden.

Eine Liste der Kontextfenstergrößen nach Modell finden Sie in unserer Modellvergleichstabelle.

Nächste Schritte