Das Kontextfenster verstehen

Das “Kontextfenster” bezieht sich auf die Gesamtmenge an Text, auf den ein Sprachmodell zurückblicken und referenzieren kann, wenn es neuen Text generiert, plus den neu generierten Text. Dies unterscheidet sich von dem großen Datenkorpus, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Prompts zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Prompts zu verarbeiten oder Kohärenz über längere Gespräche aufrechtzuerhalten.

Das folgende Diagramm veranschaulicht das standardmäßige Kontextfenster-Verhalten für API-Anfragen1:

1Für Chat-Schnittstellen wie claude.ai können Kontextfenster auch nach dem “First in, First out”-Prinzip eingerichtet werden.

  • Progressive Token-Akkumulation: Mit jedem Gesprächsverlauf sammeln sich die Nachrichten des Benutzers und die Antworten des Assistenten im Kontextfenster an. Vorherige Durchgänge bleiben vollständig erhalten.
  • Lineares Wachstumsmuster: Die Kontextnutzung wächst linear mit jedem Durchgang, wobei vorherige Durchgänge vollständig erhalten bleiben.
  • 200K Token-Kapazität: Das gesamte verfügbare Kontextfenster (200.000 Token) stellt die maximale Kapazität für die Speicherung der Gesprächshistorie und die Generierung neuer Ausgaben von Claude dar.
  • Eingabe-Ausgabe-Fluss: Jeder Durchgang besteht aus:
    • Eingabephase: Enthält die gesamte vorherige Gesprächshistorie plus die aktuelle Benutzernachricht
    • Ausgabephase: Generiert eine Textantwort, die Teil einer zukünftigen Eingabe wird

Das Kontextfenster mit erweitertem Denken

Bei der Verwendung von erweitertem Denken zählen alle Eingabe- und Ausgabe-Token, einschließlich der für das Denken verwendeten Token, zum Kontextfenster-Limit, mit einigen Besonderheiten in Mehr-Durchgang-Situationen.

Die Denkbudget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Ausgabe-Token abgerechnet und zählen zu den Ratenlimits.

Allerdings werden vorherige Denkblöcke automatisch aus der Kontextfenster-Berechnung durch die Anthropic API entfernt und sind nicht Teil der Gesprächshistorie, die das Modell für nachfolgende Durchgänge “sieht”, wodurch Token-Kapazität für den eigentlichen Gesprächsinhalt erhalten bleibt.

Das folgende Diagramm zeigt das spezielle Token-Management, wenn erweitertes Denken aktiviert ist:

  • Entfernen des erweiterten Denkens: Erweiterte Denkblöcke (in dunkelgrau dargestellt) werden während der Ausgabephase jedes Durchgangs generiert, werden aber nicht als Eingabe-Token für nachfolgende Durchgänge mitgeführt. Sie müssen die Denkblöcke nicht selbst entfernen. Die Anthropic API erledigt dies automatisch, wenn Sie sie zurückgeben.
  • Technische Implementierungsdetails:
    • Die API schließt Denkblöcke aus vorherigen Durchgängen automatisch aus, wenn Sie sie als Teil der Gesprächshistorie zurückgeben.
    • Erweiterte Denk-Token werden nur einmal als Ausgabe-Token bei ihrer Generierung abgerechnet.
    • Die effektive Kontextfenster-Berechnung wird: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Denk-Token umfassen sowohl thinking-Blöcke als auch redacted_thinking-Blöcke.

Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erheblich lang sein können.

Mehr über das Kontextfenster und erweitertes Denken können Sie in unserem Leitfaden zum erweiterten Denken lesen.

Das Kontextfenster mit erweitertem Denken und Werkzeugnutzung

Das folgende Diagramm veranschaulicht das Kontextfenster-Token-Management bei der Kombination von erweitertem Denken mit Werkzeugnutzung:

1

Architektur des ersten Durchgangs

  • Eingabekomponenten: Werkzeugkonfiguration und Benutzernachricht
  • Ausgabekomponenten: Erweitertes Denken + Textantwort + Werkzeuganfrage
  • Token-Berechnung: Alle Eingabe- und Ausgabekomponenten zählen zum Kontextfenster, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
2

Werkzeugergebnis-Verarbeitung (Durchgang 2)

  • Eingabekomponenten: Jeder Block aus dem ersten Durchgang sowie das tool_result. Der erweiterte Denkblock muss mit den entsprechenden Werkzeugergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.
  • Ausgabekomponenten: Nachdem die Werkzeugergebnisse an Claude zurückgegeben wurden, antwortet Claude nur mit Text (kein zusätzliches erweitertes Denken bis zur nächsten user-Nachricht).
  • Token-Berechnung: Alle Eingabe- und Ausgabekomponenten zählen zum Kontextfenster, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
3

Dritter Schritt

  • Eingabekomponenten: Alle Eingaben und die Ausgabe aus dem vorherigen Durchgang werden weitergeführt, mit Ausnahme des Denkblocks, der jetzt verworfen werden kann, nachdem Claude den gesamten Werkzeugnutzungszyklus abgeschlossen hat. Die API wird den Denkblock automatisch für Sie entfernen, wenn Sie ihn zurückgeben, oder Sie können ihn in dieser Phase selbst entfernen. Hier würden Sie auch den nächsten User-Durchgang hinzufügen.
  • Ausgabekomponenten: Da es einen neuen User-Durchgang außerhalb des Werkzeugnutzungszyklus gibt, wird Claude einen neuen erweiterten Denkblock generieren und von dort aus fortfahren.
  • Token-Berechnung: Vorherige Denk-Token werden automatisch aus den Kontextfenster-Berechnungen entfernt. Alle anderen vorherigen Blöcke zählen weiterhin als Teil des Token-Fensters, und der Denkblock im aktuellen Assistant-Durchgang zählt als Teil des Kontextfensters.
  • Überlegungen zur Werkzeugnutzung mit erweitertem Denken:
    • Beim Posten von Werkzeugergebnissen muss der gesamte unmodifizierte Denkblock, der zu dieser spezifischen Werkzeuganfrage gehört (einschließlich Signatur/redigierter Teile), enthalten sein.
    • Das System verwendet kryptografische Signaturen zur Überprüfung der Authentizität der Denkblöcke. Wenn Denkblöcke während der Werkzeugnutzung nicht erhalten bleiben, kann dies die Denklogik von Claude unterbrechen. Wenn Sie also Denkblöcke modifizieren, wird die API einen Fehler zurückgeben.

Es gibt keine Verschachtelung von erweitertem Denken und Werkzeugaufrufen - Sie werden kein erweitertes Denken, dann Werkzeugaufrufe, dann mehr erweitertes Denken sehen, ohne einen nicht-tool_result Benutzerdurchgang dazwischen. Zusätzlich wird die Werkzeugnutzung innerhalb des erweiterten Denkblocks selbst derzeit nicht unterstützt, obwohl Claude innerhalb des Denkblocks über die zu verwendenden Werkzeuge und deren Aufruf nachdenken kann.

Mehr über die Werkzeugnutzung mit erweitertem Denken können Sie in unserem Leitfaden zum erweiterten Denken lesen.

Kontextfenster-Management mit neueren Claude-Modellen

Bei neueren Claude-Modellen (beginnend mit Claude 3.7 Sonnet) gibt das System einen Validierungsfehler zurück, wenn die Summe der Prompt-Token und Ausgabe-Token das Kontextfenster des Modells überschreitet, anstatt den Kontext stillschweigend zu kürzen. Diese Änderung bietet ein vorhersehbareres Verhalten, erfordert aber ein sorgfältigeres Token-Management.

Um Ihre Token-Nutzung zu planen und sicherzustellen, dass Sie innerhalb der Kontextfenster-Grenzen bleiben, können Sie die Token-Zähl-API verwenden, um abzuschätzen, wie viele Token Ihre Nachrichten verwenden werden, bevor Sie sie an Claude senden.

In unserer Modellvergleichstabelle finden Sie eine Auflistung der Kontextfenstergrößen nach Modell.

Nächste Schritte

Was this page helpful?