Comprendere la finestra di contesto

La “finestra di contesto” si riferisce all’intera quantità di testo che un modello linguistico può guardare indietro e referenziare quando genera nuovo testo più il nuovo testo che genera. Questo è diverso dal grande corpus di dati su cui il modello linguistico è stato addestrato, e rappresenta invece una “memoria di lavoro” per il modello. Una finestra di contesto più grande consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre una finestra di contesto più piccola può limitare la capacità del modello di gestire prompt più lunghi o mantenere coerenza durante conversazioni estese.

Il diagramma sottostante illustra il comportamento standard della finestra di contesto per le richieste API1:

1Per le interfacce di chat, come per claude.ai, le finestre di contesto possono anche essere impostate su un sistema a rotazione “primo entrato, primo uscito”.

  • Accumulo progressivo di token: Man mano che la conversazione avanza attraverso i turni, ogni messaggio dell’utente e risposta dell’assistente si accumula all’interno della finestra di contesto. I turni precedenti vengono preservati completamente.
  • Modello di crescita lineare: L’uso del contesto cresce linearmente con ogni turno, con i turni precedenti preservati completamente.
  • Capacità di 200K token: La finestra di contesto totale disponibile (200.000 token) rappresenta la capacità massima per memorizzare la cronologia della conversazione e generare nuovo output da Claude.
  • Flusso input-output: Ogni turno consiste di:
    • Fase di input: Contiene tutta la cronologia della conversazione precedente più il messaggio utente corrente
    • Fase di output: Genera una risposta testuale che diventa parte di un input futuro

La finestra di contesto con il pensiero esteso

Quando si utilizza il pensiero esteso, tutti i token di input e output, inclusi i token utilizzati per il pensiero, contano verso il limite della finestra di contesto, con alcune sfumature nelle situazioni multi-turno.

I token del budget di pensiero sono un sottoinsieme del tuo parametro max_tokens, vengono fatturati come token di output e contano verso i limiti di velocità.

Tuttavia, i blocchi di pensiero precedenti vengono automaticamente rimossi dal calcolo della finestra di contesto dall’API Anthropic e non fanno parte della cronologia della conversazione che il modello “vede” per i turni successivi, preservando la capacità di token per il contenuto effettivo della conversazione.

Il diagramma sottostante dimostra la gestione specializzata dei token quando il pensiero esteso è abilitato:

  • Rimozione del pensiero esteso: I blocchi di pensiero esteso (mostrati in grigio scuro) vengono generati durante la fase di output di ogni turno, ma non vengono portati avanti come token di input per i turni successivi. Non è necessario rimuovere i blocchi di pensiero da soli. L’API Anthropic lo fa automaticamente per te se li ripassi indietro.
  • Dettagli di implementazione tecnica:
    • L’API esclude automaticamente i blocchi di pensiero dai turni precedenti quando li ripassi indietro come parte della cronologia della conversazione.
    • I token di pensiero esteso vengono fatturati come token di output solo una volta, durante la loro generazione.
    • Il calcolo effettivo della finestra di contesto diventa: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • I token di pensiero includono sia i blocchi thinking che i blocchi redacted_thinking.

Questa architettura è efficiente in termini di token e consente un ragionamento estensivo senza spreco di token, poiché i blocchi di pensiero possono essere sostanziali in lunghezza.

Puoi leggere di più sulla finestra di contesto e il pensiero esteso nella nostra guida al pensiero esteso.

La finestra di contesto con pensiero esteso e uso di strumenti

Il diagramma sottostante illustra la gestione dei token della finestra di contesto quando si combina il pensiero esteso con l’uso di strumenti:

1

Architettura del primo turno

  • Componenti di input: Configurazione degli strumenti e messaggio dell’utente
  • Componenti di output: Pensiero esteso + risposta testuale + richiesta di uso strumento
  • Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto, e tutti i componenti di output vengono fatturati come token di output.
2

Gestione del risultato dello strumento (turno 2)

  • Componenti di input: Ogni blocco nel primo turno così come il tool_result. Il blocco di pensiero esteso deve essere restituito con i risultati dello strumento corrispondenti. Questo è l’unico caso in cui devi restituire i blocchi di pensiero.
  • Componenti di output: Dopo che i risultati dello strumento sono stati ripassati a Claude, Claude risponderà solo con testo (nessun pensiero esteso aggiuntivo fino al prossimo messaggio user).
  • Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto, e tutti i componenti di output vengono fatturati come token di output.
3

Terzo Passo

  • Componenti di input: Tutti gli input e l’output del turno precedente vengono portati avanti ad eccezione del blocco di pensiero, che può essere eliminato ora che Claude ha completato l’intero ciclo di uso dello strumento. L’API rimuoverà automaticamente il blocco di pensiero per te se lo ripassi indietro, oppure puoi sentiti libero di rimuoverlo tu stesso in questa fase. Questo è anche dove aggiungeresti il prossimo turno User.
  • Componenti di output: Poiché c’è un nuovo turno User al di fuori del ciclo di uso dello strumento, Claude genererà un nuovo blocco di pensiero esteso e continuerà da lì.
  • Calcolo dei token: I token di pensiero precedenti vengono automaticamente rimossi dai calcoli della finestra di contesto. Tutti gli altri blocchi precedenti contano ancora come parte della finestra dei token, e il blocco di pensiero nel turno Assistant corrente conta come parte della finestra di contesto.
  • Considerazioni per l’uso di strumenti con pensiero esteso:
    • Quando si pubblicano risultati di strumenti, l’intero blocco di pensiero non modificato che accompagna quella specifica richiesta di strumento (incluse le porzioni di firma/censurate) deve essere incluso.
    • Il calcolo effettivo della finestra di contesto per il pensiero esteso con uso di strumenti diventa: context_window = input_tokens + current_turn_tokens.
    • Il sistema utilizza firme crittografiche per verificare l’autenticità del blocco di pensiero. Il mancato mantenimento dei blocchi di pensiero durante l’uso degli strumenti può interrompere la continuità del ragionamento di Claude. Quindi, se modifichi i blocchi di pensiero, l’API restituirà un errore.

I modelli Claude 4 supportano il pensiero interlacciato, che consente a Claude di pensare tra le chiamate agli strumenti e fare ragionamenti più sofisticati dopo aver ricevuto i risultati degli strumenti.

Claude Sonnet 3.7 non supporta il pensiero interlacciato, quindi non c’è interlacciamento di pensiero esteso e chiamate agli strumenti senza un turno utente non-tool_result nel mezzo.

Per maggiori informazioni sull’uso degli strumenti con il pensiero esteso, vedi la nostra guida al pensiero esteso.

Finestra di contesto da 1M token

Claude Sonnet 4 supporta una finestra di contesto da 1 milione di token. Questa finestra di contesto estesa ti consente di elaborare documenti molto più grandi, mantenere conversazioni più lunghe e lavorare con basi di codice più estese.

La finestra di contesto da 1M token è attualmente in beta per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. La finestra di contesto da 1M token è disponibile solo per Claude Sonnet 4.

Per utilizzare la finestra di contesto da 1M token, includi l’header beta context-1m-2025-08-07 nelle tue richieste API:

from anthropic import Anthropic

client = Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Process this large document..."}
    ],
    betas=["context-1m-2025-08-07"]
)

Considerazioni importanti:

  • Stato beta: Questa è una funzionalità beta soggetta a modifiche. Le funzionalità e i prezzi possono essere modificati o rimossi nelle versioni future.
  • Requisito del livello di utilizzo: La finestra di contesto da 1M token è disponibile per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. Le organizzazioni di livello inferiore devono avanzare al livello di utilizzo 4 per accedere a questa funzionalità.
  • Disponibilità: La finestra di contesto da 1M token è attualmente disponibile sull’API Anthropic e Amazon Bedrock. Il supporto per Google Vertex AI seguirà.
  • Prezzi: Le richieste che superano i 200K token vengono automaticamente addebitate a tariffe premium (2x input, 1,5x output pricing). Vedi la documentazione sui prezzi per i dettagli.
  • Limiti di velocità: Le richieste di contesto lungo hanno limiti di velocità dedicati. Vedi la documentazione sui limiti di velocità per i dettagli.
  • Considerazioni multimodali: Quando si elabora un gran numero di immagini o pdf, tieni presente che i file possono variare nell’uso dei token. Quando si abbina un prompt grande con un gran numero di immagini, potresti raggiungere i limiti di dimensione della richiesta.

Gestione della finestra di contesto con i modelli Claude più recenti

Nei modelli Claude più recenti (a partire da Claude Sonnet 3.7), se la somma dei token del prompt e dei token di output supera la finestra di contesto del modello, il sistema restituirà un errore di validazione piuttosto che troncare silenziosamente il contesto. Questo cambiamento fornisce un comportamento più prevedibile ma richiede una gestione più attenta dei token.

Per pianificare l’uso dei tuoi token e assicurarti di rimanere entro i limiti della finestra di contesto, puoi utilizzare l’API di conteggio dei token per stimare quanti token useranno i tuoi messaggi prima di inviarli a Claude.

Vedi la nostra tabella di confronto dei modelli per un elenco delle dimensioni delle finestre di contesto per modello.

Prossimi passi