Das Kontextfenster verstehen

Das “Kontextfenster” bezieht sich auf die Gesamtheit der Textmenge, auf die ein Sprachmodell zurückblicken und referenzieren kann, wenn es neuen Text generiert, plus den neuen Text, den es generiert. Dies unterscheidet sich von dem großen Datenkorpus, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen ein “Arbeitsgedächtnis” für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingabeaufforderungen zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells einschränken kann, längere Eingabeaufforderungen zu handhaben oder die Kohärenz über längere Gespräche aufrechtzuerhalten.

Das folgende Diagramm veranschaulicht das standardmäßige Kontextfenster-Verhalten für API-Anfragen1:

1Für Chat-Schnittstellen, wie z.B. für claude.ai, können Kontextfenster auch auf einem rollierenden “First in, First out”-System eingerichtet werden.

  • Progressive Token-Akkumulation: Während das Gespräch durch die Runden voranschreitet, akkumuliert sich jede Benutzernachricht und Assistentenantwort innerhalb des Kontextfensters. Vorherige Runden werden vollständig erhalten.
  • Lineares Wachstumsmuster: Die Kontextnutzung wächst linear mit jeder Runde, wobei vorherige Runden vollständig erhalten bleiben.
  • 200K Token-Kapazität: Das gesamte verfügbare Kontextfenster (200.000 Token) stellt die maximale Kapazität für die Speicherung der Gesprächshistorie und die Generierung neuer Ausgaben von Claude dar.
  • Input-Output-Fluss: Jede Runde besteht aus:
    • Input-Phase: Enthält die gesamte vorherige Gesprächshistorie plus die aktuelle Benutzernachricht
    • Output-Phase: Generiert eine Textantwort, die Teil einer zukünftigen Eingabe wird

Das Kontextfenster mit erweitertem Denken

Bei der Verwendung von erweitertem Denken zählen alle Input- und Output-Token, einschließlich der für das Denken verwendeten Token, zur Kontextfenster-Grenze, mit einigen Nuancen in Multi-Turn-Situationen.

Die Denkbudget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Output-Token abgerechnet und zählen zu den Ratenlimits.

Allerdings werden vorherige Denkblöcke automatisch aus der Kontextfenster-Berechnung durch die Anthropic API entfernt und sind nicht Teil der Gesprächshistorie, die das Modell für nachfolgende Runden “sieht”, wodurch Token-Kapazität für tatsächlichen Gesprächsinhalt erhalten bleibt.

Das folgende Diagramm demonstriert das spezialisierte Token-Management, wenn erweitertes Denken aktiviert ist:

  • Entfernung des erweiterten Denkens: Erweiterte Denkblöcke (in dunkelgrau dargestellt) werden während der Output-Phase jeder Runde generiert, werden aber nicht als Input-Token für nachfolgende Runden weitergegeben. Sie müssen die Denkblöcke nicht selbst entfernen. Die Anthropic API macht dies automatisch für Sie, wenn Sie sie zurückgeben.
  • Technische Implementierungsdetails:
    • Die API schließt automatisch Denkblöcke aus vorherigen Runden aus, wenn Sie sie als Teil der Gesprächshistorie zurückgeben.
    • Erweiterte Denk-Token werden nur einmal als Output-Token abgerechnet, während ihrer Generierung.
    • Die effektive Kontextfenster-Berechnung wird: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Denk-Token umfassen sowohl thinking-Blöcke als auch redacted_thinking-Blöcke.

Diese Architektur ist token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erheblich lang sein können.

Sie können mehr über das Kontextfenster und erweitertes Denken in unserem Leitfaden für erweitertes Denken lesen.

Das Kontextfenster mit erweitertem Denken und Tool-Verwendung

Das folgende Diagramm veranschaulicht das Kontextfenster-Token-Management bei der Kombination von erweitertem Denken mit Tool-Verwendung:

1

Erste Runden-Architektur

  • Input-Komponenten: Tools-Konfiguration und Benutzernachricht
  • Output-Komponenten: Erweitertes Denken + Textantwort + Tool-Verwendungsanfrage
  • Token-Berechnung: Alle Input- und Output-Komponenten zählen zum Kontextfenster, und alle Output-Komponenten werden als Output-Token abgerechnet.
2

Tool-Ergebnis-Behandlung (Runde 2)

  • Input-Komponenten: Jeder Block in der ersten Runde sowie das tool_result. Der erweiterte Denkblock muss mit den entsprechenden Tool-Ergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.
  • Output-Komponenten: Nachdem Tool-Ergebnisse an Claude zurückgegeben wurden, antwortet Claude nur mit Text (kein zusätzliches erweitertes Denken bis zur nächsten user-Nachricht).
  • Token-Berechnung: Alle Input- und Output-Komponenten zählen zum Kontextfenster, und alle Output-Komponenten werden als Output-Token abgerechnet.
3

Dritter Schritt

  • Input-Komponenten: Alle Inputs und die Ausgabe der vorherigen Runde werden weitergegeben, mit Ausnahme des Denkblocks, der jetzt fallen gelassen werden kann, da Claude den gesamten Tool-Verwendungszyklus abgeschlossen hat. Die API wird den Denkblock automatisch für Sie entfernen, wenn Sie ihn zurückgeben, oder Sie können ihn gerne selbst in diesem Stadium entfernen. Hier würden Sie auch die nächste User-Runde hinzufügen.
  • Output-Komponenten: Da es eine neue User-Runde außerhalb des Tool-Verwendungszyklus gibt, wird Claude einen neuen erweiterten Denkblock generieren und von dort aus fortfahren.
  • Token-Berechnung: Vorherige Denk-Token werden automatisch aus den Kontextfenster-Berechnungen entfernt. Alle anderen vorherigen Blöcke zählen immer noch als Teil des Token-Fensters, und der Denkblock in der aktuellen Assistant-Runde zählt als Teil des Kontextfensters.
  • Überlegungen für Tool-Verwendung mit erweitertem Denken:
    • Beim Posten von Tool-Ergebnissen muss der gesamte unveränderte Denkblock, der diese spezifische Tool-Anfrage begleitet (einschließlich Signatur/redigierter Teile), enthalten sein.
    • Die effektive Kontextfenster-Berechnung für erweitertes Denken mit Tool-Verwendung wird: context_window = input_tokens + current_turn_tokens.
    • Das System verwendet kryptographische Signaturen, um die Authentizität von Denkblöcken zu verifizieren. Das Versäumnis, Denkblöcke während der Tool-Verwendung zu erhalten, kann Claudes Denkfortsetzung unterbrechen. Wenn Sie also Denkblöcke modifizieren, gibt die API einen Fehler zurück.

Claude 4-Modelle unterstützen verschachteltes Denken, das es Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach dem Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.

Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Tool-Aufrufen ohne eine Nicht-tool_result-Benutzerrunde dazwischen.

Für weitere Informationen über die Verwendung von Tools mit erweitertem Denken, siehe unseren Leitfaden für erweitertes Denken.

1M Token-Kontextfenster

Claude Sonnet 4 unterstützt ein 1-Million-Token-Kontextfenster. Dieses erweiterte Kontextfenster ermöglicht es Ihnen, viel größere Dokumente zu verarbeiten, längere Gespräche zu führen und mit umfangreicheren Codebasen zu arbeiten.

Das 1M Token-Kontextfenster befindet sich derzeit in der Beta für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token-Kontextfenster ist nur für Claude Sonnet 4 verfügbar.

Um das 1M Token-Kontextfenster zu verwenden, fügen Sie den context-1m-2025-08-07 Beta-Header in Ihre API-Anfragen ein:

from anthropic import Anthropic

client = Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Process this large document..."}
    ],
    betas=["context-1m-2025-08-07"]
)

Wichtige Überlegungen:

  • Beta-Status: Dies ist eine Beta-Funktion, die sich ändern kann. Funktionen und Preise können in zukünftigen Versionen geändert oder entfernt werden.
  • Nutzungsstufen-Anforderung: Das 1M Token-Kontextfenster ist für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits verfügbar. Organisationen niedrigerer Stufen müssen zur Nutzungsstufe 4 aufsteigen, um auf diese Funktion zugreifen zu können.
  • Verfügbarkeit: Das 1M Token-Kontextfenster ist derzeit auf der Anthropic API und Amazon Bedrock verfügbar. Unterstützung für Google Vertex AI wird folgen.
  • Preisgestaltung: Anfragen, die 200K Token überschreiten, werden automatisch zu Premium-Tarifen berechnet (2x Input, 1,5x Output-Preise). Siehe die Preisdokumentation für Details.
  • Ratenlimits: Lange Kontext-Anfragen haben dedizierte Ratenlimits. Siehe die Ratenlimits-Dokumentation für Details.
  • Multimodale Überlegungen: Bei der Verarbeitung großer Mengen von Bildern oder PDFs sollten Sie beachten, dass die Dateien in der Token-Nutzung variieren können. Bei der Kombination einer großen Eingabeaufforderung mit einer großen Anzahl von Bildern können Sie Anfragegrößenlimits erreichen.

Kontextfenster-Management mit neueren Claude-Modellen

In neueren Claude-Modellen (beginnend mit Claude Sonnet 3.7) gibt das System einen Validierungsfehler zurück, anstatt den Kontext stillschweigend zu kürzen, wenn die Summe aus Eingabeaufforderungs-Token und Output-Token das Kontextfenster des Modells überschreitet. Diese Änderung bietet vorhersagbareres Verhalten, erfordert aber sorgfältigeres Token-Management.

Um Ihre Token-Nutzung zu planen und sicherzustellen, dass Sie innerhalb der Kontextfenster-Grenzen bleiben, können Sie die Token-Zähl-API verwenden, um zu schätzen, wie viele Token Ihre Nachrichten verwenden werden, bevor Sie sie an Claude senden.

Siehe unsere Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.

Nächste Schritte