Il pensiero esteso offre a Claude capacità di ragionamento avanzate per compiti complessi, fornendo al contempo diversi livelli di trasparenza nel suo processo di pensiero passo dopo passo prima di fornire la risposta finale.

Modelli supportati

Il pensiero esteso è supportato nei seguenti modelli:

  • Claude Opus 4 (claude-opus-4-20250514)
  • Claude Sonnet 4 (claude-sonnet-4-20250514)
  • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219)

Il comportamento dell’API differisce tra i modelli Claude 3.7 e Claude 4, ma le strutture dell’API rimangono esattamente le stesse.

Per maggiori informazioni, consulta Differenze nel pensiero tra le versioni dei modelli.

Come funziona il pensiero esteso

Quando il pensiero esteso è attivato, Claude crea blocchi di contenuto thinking dove produce il suo ragionamento interno. Claude incorpora le intuizioni di questo ragionamento prima di elaborare una risposta finale.

La risposta dell’API includerà blocchi di contenuto thinking, seguiti da blocchi di contenuto text.

Ecco un esempio del formato di risposta predefinito:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Analizziamo questo passo dopo passo...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "In base alla mia analisi..."
    }
  ]
}

Per maggiori informazioni sul formato di risposta del pensiero esteso, consulta il Riferimento API Messages.

Come utilizzare il pensiero esteso

Ecco un esempio di utilizzo del pensiero esteso nell’API Messages:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Ci sono un numero infinito di numeri primi tali che n mod 4 == 3?"
        }
    ]
}'

Per attivare il pensiero esteso, aggiungi un oggetto thinking, con il parametro thinking impostato su enabled e il budget_tokens su un budget di token specifico per il pensiero esteso.

Il parametro budget_tokens determina il numero massimo di token che Claude può utilizzare per il suo processo di ragionamento interno. Nei modelli Claude 4, questo limite si applica ai token di pensiero completi, e non al risultato riassunto. Budget più grandi possono migliorare la qualità della risposta consentendo un’analisi più approfondita per problemi complessi, anche se Claude potrebbe non utilizzare l’intero budget allocato, specialmente in intervalli superiori a 32k.

budget_tokens deve essere impostato su un valore inferiore a max_tokens. Tuttavia, quando si utilizza il pensiero interlacciato con gli strumenti, è possibile superare questo limite poiché il limite di token diventa l’intera finestra di contesto (200k token).

Pensiero riassunto

Con il pensiero esteso abilitato, l’API Messages per i modelli Claude 4 restituisce un riassunto del processo di pensiero completo di Claude. Il pensiero riassunto fornisce tutti i vantaggi di intelligenza del pensiero esteso, prevenendo al contempo l’uso improprio.

Ecco alcune considerazioni importanti per il pensiero riassunto:

  • Ti viene addebitato il costo dei token di pensiero completi generati dalla richiesta originale, non dei token del riassunto.
  • Il conteggio dei token di output addebitati non corrisponderà al conteggio dei token che vedi nella risposta.
  • Le prime righe dell’output di pensiero sono più dettagliate, fornendo un ragionamento dettagliato particolarmente utile per scopi di ingegneria dei prompt.
  • Poiché Anthropic cerca di migliorare la funzionalità di pensiero esteso, il comportamento di riassunto è soggetto a modifiche.
  • Il riassunto preserva le idee chiave del processo di pensiero di Claude con una latenza aggiunta minima, consentendo un’esperienza utente fluida e una facile migrazione dai modelli Claude 3.7 ai modelli Claude 4.
  • Il riassunto viene elaborato da un modello diverso da quello che hai scelto nelle tue richieste. Il modello di pensiero non vede l’output riassunto.

Claude Sonnet 3.7 continua a restituire l’output di pensiero completo.

Nei rari casi in cui hai bisogno di accedere all’output di pensiero completo per i modelli Claude 4, contatta il nostro team di vendita.

Streaming del pensiero

Puoi trasmettere in streaming le risposte di pensiero esteso utilizzando eventi inviati dal server (SSE).

Quando lo streaming è abilitato per il pensiero esteso, ricevi contenuti di pensiero tramite eventi thinking_delta.

Per ulteriore documentazione sullo streaming tramite l’API Messages, consulta Streaming Messages.

Ecco come gestire lo streaming con il pensiero:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Quanto fa 27 * 453?"
        }
    ]
}'

Esempio di output di streaming:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-20250514", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Risolviamo questo passo dopo passo:\n\n1. Prima scomponiamo 27 * 453"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}

// Ulteriori delta di pensiero...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12.231"}}

// Ulteriori delta di testo...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Quando utilizzi lo streaming con il pensiero abilitato, potresti notare che il testo a volte arriva in blocchi più grandi alternati con consegne più piccole, token per token. Questo è un comportamento previsto, specialmente per i contenuti di pensiero.

Il sistema di streaming deve elaborare i contenuti in batch per prestazioni ottimali, il che può risultare in questo modello di consegna “a blocchi”, con possibili ritardi tra gli eventi di streaming. Stiamo lavorando continuamente per migliorare questa esperienza, con aggiornamenti futuri focalizzati sul rendere più fluido lo streaming dei contenuti di pensiero.

Pensiero esteso con l’uso di strumenti

Il pensiero esteso può essere utilizzato insieme all’uso di strumenti, permettendo a Claude di ragionare sulla selezione degli strumenti e sull’elaborazione dei risultati.

Quando si utilizza il pensiero esteso con l’uso di strumenti, è necessario essere consapevoli delle seguenti limitazioni:

  1. Limitazione nella scelta degli strumenti: L’uso di strumenti con il pensiero supporta solo tool_choice: any (non specific, auto o altri valori).

  2. Preservare i blocchi di pensiero: Durante l’uso degli strumenti, è necessario passare i blocchi thinking all’API per l’ultimo messaggio dell’assistente. Includi il blocco completo non modificato all’API per mantenere la continuità del ragionamento.

Preservare i blocchi di pensiero

Durante l’uso degli strumenti, è necessario passare i blocchi thinking all’API, e devi includere il blocco completo non modificato all’API. Questo è fondamentale per mantenere il flusso di ragionamento del modello e l’integrità della conversazione.

Sebbene sia possibile omettere i blocchi thinking dai turni precedenti con ruolo assistant, suggeriamo di passare sempre tutti i blocchi di pensiero all’API per qualsiasi conversazione multi-turno. L’API:

  • Filtrerà automaticamente i blocchi di pensiero forniti
  • Utilizzerà i blocchi di pensiero rilevanti necessari per preservare il ragionamento del modello
  • Addebiterà solo i token di input per i blocchi mostrati a Claude

Quando Claude invoca gli strumenti, sta mettendo in pausa la costruzione di una risposta per attendere informazioni esterne. Quando vengono restituiti i risultati degli strumenti, Claude continuerà a costruire quella risposta esistente. Questo rende necessario preservare i blocchi di pensiero durante l’uso degli strumenti, per un paio di motivi:

  1. Continuità del ragionamento: I blocchi di pensiero catturano il ragionamento passo dopo passo di Claude che ha portato alle richieste di strumenti. Quando pubblichi i risultati degli strumenti, includere il pensiero originale garantisce che Claude possa continuare il suo ragionamento da dove si era interrotto.

  2. Mantenimento del contesto: Mentre i risultati degli strumenti appaiono come messaggi utente nella struttura dell’API, fanno parte di un flusso di ragionamento continuo. Preservare i blocchi di pensiero mantiene questo flusso concettuale attraverso più chiamate API. Per maggiori informazioni sulla gestione del contesto, consulta la nostra guida sulle finestre di contesto.

Importante: Quando fornisci blocchi thinking, l’intera sequenza di blocchi thinking consecutivi deve corrispondere agli output generati dal modello durante la richiesta originale; non puoi riorganizzare o modificare la sequenza di questi blocchi.

Pensiero interlacciato

Il pensiero esteso con l’uso di strumenti nei modelli Claude 4 supporta il pensiero interlacciato, che consente a Claude di pensare tra le chiamate agli strumenti e di fare ragionamenti più sofisticati dopo aver ricevuto i risultati degli strumenti.

Con il pensiero interlacciato, Claude può:

  • Ragionare sui risultati di una chiamata a uno strumento prima di decidere cosa fare dopo
  • Concatenare più chiamate a strumenti con passaggi di ragionamento intermedi
  • Prendere decisioni più sfumate basate su risultati intermedi

Per abilitare il pensiero interlacciato, aggiungi l’header beta interleaved-thinking-2025-05-14 alla tua richiesta API.

Il pensiero interlacciato è supportato solo per gli strumenti utilizzati tramite l’API Messages.

Con il pensiero interlacciato, il budget_tokens può superare il parametro max_tokens poiché rappresenta il budget totale per tutti i blocchi di pensiero all’interno di un singolo turno dell’assistente.

Pensiero esteso con caching dei prompt

Il caching dei prompt con il pensiero ha diverse considerazioni importanti:

Rimozione del contesto dei blocchi di pensiero

  • I blocchi di pensiero dai turni precedenti vengono rimossi dal contesto, il che può influenzare i punti di interruzione della cache
  • Quando si continuano conversazioni con l’uso di strumenti, i blocchi di pensiero vengono memorizzati nella cache e contano come token di input quando vengono letti dalla cache
  • Questo crea un compromesso: mentre i blocchi di pensiero non consumano spazio nella finestra di contesto visivamente, contano comunque per l’utilizzo dei token di input quando sono memorizzati nella cache
  • Se il pensiero viene disabilitato, le richieste falliranno se passi contenuti di pensiero nel turno di utilizzo dello strumento corrente. In altri contesti, i contenuti di pensiero passati all’API vengono semplicemente ignorati

Modelli di invalidazione della cache

  • Le modifiche ai parametri di pensiero (abilitato/disabilitato o allocazione del budget) invalidano i punti di interruzione della cache dei messaggi
  • Il pensiero interlacciato amplifica l’invalidazione della cache, poiché i blocchi di pensiero possono verificarsi tra più chiamate a strumenti
  • I prompt di sistema e gli strumenti rimangono memorizzati nella cache nonostante le modifiche ai parametri di pensiero o la rimozione dei blocchi

Mentre i blocchi di pensiero vengono rimossi per il caching e i calcoli del contesto, devono essere preservati quando si continuano conversazioni con l’uso di strumenti, specialmente con il pensiero interlacciato.

Comprendere il comportamento di caching dei blocchi di pensiero

Quando si utilizza il pensiero esteso con l’uso di strumenti, i blocchi di pensiero mostrano un comportamento di caching specifico che influisce sul conteggio dei token:

Come funziona:

  1. Il caching si verifica solo quando fai una richiesta successiva che include risultati degli strumenti
  2. Quando viene effettuata la richiesta successiva, la cronologia della conversazione precedente (inclusi i blocchi di pensiero) può essere memorizzata nella cache
  3. Questi blocchi di pensiero memorizzati nella cache contano come token di input nelle tue metriche di utilizzo quando vengono letti dalla cache
  4. Quando viene incluso un blocco utente non relativo ai risultati degli strumenti, tutti i blocchi di pensiero precedenti vengono ignorati e rimossi dal contesto

Esempio dettagliato di flusso:

Richiesta 1:

Utente: "Che tempo fa a Parigi?"

Risposta 1:

[thinking_block_1] + [tool_use block 1]

Richiesta 2:

Utente: ["Che tempo fa a Parigi?"], 
Assistente: [thinking_block_1] + [tool_use block 1], 
Utente: [tool_result_1, cache=True]

Risposta 2:

[thinking_block_2] + [text block 2]

La richiesta 2 scrive una cache del contenuto della richiesta (non della risposta). La cache include il messaggio utente originale, il primo blocco di pensiero, il blocco di utilizzo dello strumento e il risultato dello strumento.

Richiesta 3:

Utente: ["Che tempo fa a Parigi?"], 
Assistente: [thinking_block_1] + [tool_use block 1], 
Utente: [tool_result_1, cache=True], 
Assistente: [thinking_block_2] + [text block 2], 
Utente: [Risposta testuale, cache=True]

Poiché è stato incluso un blocco utente non relativo ai risultati degli strumenti, tutti i blocchi di pensiero precedenti vengono ignorati. Questa richiesta verrà elaborata allo stesso modo di:

Utente: ["Che tempo fa a Parigi?"], 
Assistente: [tool_use block 1], 
Utente: [tool_result_1, cache=True], 
Assistente: [text block 2], 
Utente: [Risposta testuale, cache=True]

Punti chiave:

  • Questo comportamento di caching avviene automaticamente, anche senza marcatori espliciti cache_control
  • Questo comportamento è coerente sia che si utilizzi il pensiero regolare o il pensiero interlacciato

Max tokens e dimensione della finestra di contesto con pensiero esteso

Nei modelli Claude più vecchi (prima di Claude Sonnet 3.7), se la somma dei token del prompt e max_tokens superava la finestra di contesto del modello, il sistema avrebbe automaticamente regolato max_tokens per adattarsi al limite del contesto. Ciò significava che potevi impostare un valore max_tokens grande e il sistema lo avrebbe silenziosamente ridotto secondo necessità.

Con i modelli Claude 3.7 e 4, max_tokens (che include il tuo budget di pensiero quando il pensiero è abilitato) viene applicato come un limite rigoroso. Il sistema ora restituirà un errore di convalida se i token del prompt + max_tokens superano la dimensione della finestra di contesto.

Puoi leggere la nostra guida sulle finestre di contesto per un’analisi più approfondita.

La finestra di contesto con pensiero esteso

Quando si calcola l’utilizzo della finestra di contesto con il pensiero abilitato, ci sono alcune considerazioni da tenere presenti:

  • I blocchi di pensiero dai turni precedenti vengono rimossi e non conteggiati nella finestra di contesto
  • Il pensiero del turno corrente conta per il limite max_tokens per quel turno

Il diagramma seguente mostra la gestione specializzata dei token quando il pensiero esteso è abilitato:

La finestra di contesto effettiva viene calcolata come:

finestra di contesto =
  (token di input correnti - token di pensiero precedenti) +
  (token di pensiero + token di pensiero criptati + token di output di testo)

Consigliamo di utilizzare l’API di conteggio dei token per ottenere conteggi accurati dei token per il tuo caso d’uso specifico, specialmente quando si lavora con conversazioni multi-turno che includono il pensiero.

La finestra di contesto con pensiero esteso e uso di strumenti

Quando si utilizza il pensiero esteso con l’uso di strumenti, i blocchi di pensiero devono essere esplicitamente preservati e restituiti con i risultati degli strumenti.

Il calcolo della finestra di contesto effettiva per il pensiero esteso con l’uso di strumenti diventa:

finestra di contesto =
  (token di input correnti + token di pensiero precedenti + token di utilizzo degli strumenti) +
  (token di pensiero + token di pensiero criptati + token di output di testo)

Il diagramma seguente illustra la gestione dei token per il pensiero esteso con l’uso di strumenti:

Gestione dei token con pensiero esteso

Dato il comportamento della finestra di contesto e di max_tokens con i modelli Claude 3.7 e 4 con pensiero esteso, potresti dover:

  • Monitorare e gestire più attivamente il tuo utilizzo di token
  • Regolare i valori max_tokens man mano che la lunghezza del prompt cambia
  • Potenzialmente utilizzare gli endpoint di conteggio dei token più frequentemente
  • Essere consapevole che i blocchi di pensiero precedenti non si accumulano nella finestra di contesto

Questa modifica è stata apportata per fornire un comportamento più prevedibile e trasparente, specialmente poiché i limiti massimi di token sono aumentati significativamente.

Crittografia del pensiero

Il contenuto completo del pensiero è crittografato e restituito nel campo signature. Questo campo viene utilizzato per verificare che i blocchi di pensiero siano stati generati da Claude quando vengono passati nuovamente all’API. Quando si trasmettono in streaming le risposte, la firma viene aggiunta tramite un signature_delta all’interno di un evento content_block_delta appena prima dell’evento content_block_stop.

Nota che il campo firma sarà significativamente più lungo rispetto ai modelli precedenti. Questo è un campo opaco e non dovrebbe essere interpretato o analizzato - esiste esclusivamente per scopi di verifica.

È strettamente necessario inviare i blocchi di pensiero solo quando si utilizzano strumenti con pensiero esteso. Altrimenti puoi omettere i blocchi di pensiero dai turni precedenti, o lasciare che l’API li rimuova per te se li passi indietro.

Se invii i blocchi di pensiero, ti consigliamo di passare tutto indietro come l’hai ricevuto per coerenza e per evitare potenziali problemi.

Redazione del pensiero

Occasionalmente, il ragionamento interno di Claude verrà segnalato dai nostri sistemi di sicurezza. Quando ciò accade, crittografiamo parte o tutto il blocco thinking e lo restituiamo a te come blocco redacted_thinking. I blocchi redacted_thinking vengono decrittografati quando passati nuovamente all’API, permettendo a Claude di continuare la sua risposta senza perdere contesto.

Quando si costruiscono applicazioni rivolte ai clienti che utilizzano il pensiero esteso:

  • Sii consapevole che i blocchi di pensiero redatti contengono contenuti crittografati che non sono leggibili dall’uomo
  • Considera di fornire una semplice spiegazione come: “Parte del ragionamento interno di Claude è stata automaticamente crittografata per motivi di sicurezza. Questo non influisce sulla qualità delle risposte.”
  • Se mostri blocchi di pensiero agli utenti, puoi filtrare i blocchi redatti preservando i normali blocchi di pensiero
  • Sii trasparente sul fatto che l’utilizzo delle funzionalità di pensiero esteso potrebbe occasionalmente comportare la crittografia di alcuni ragionamenti
  • Implementa una gestione degli errori appropriata per gestire elegantemente il pensiero redatto senza interrompere la tua UI

Ecco un esempio che mostra sia blocchi di pensiero normali che redatti:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Analizziamo questo passo dopo passo...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "In base alla mia analisi..."
    }
  ]
}

Vedere blocchi di pensiero redatti nell’output è un comportamento previsto. Il modello può ancora utilizzare questo ragionamento redatto per informare le sue risposte mantenendo le protezioni di sicurezza.

Se hai bisogno di testare la gestione del pensiero redatto nella tua applicazione, puoi utilizzare questa stringa di test speciale come prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

Quando passi blocchi thinking e redacted_thinking all’API in una conversazione multi-turno, devi includere il blocco completo non modificato all’API per l’ultimo turno dell’assistente. Questo è fondamentale per mantenere il flusso di ragionamento del modello. Ti suggeriamo di passare sempre tutti i blocchi di pensiero all’API. Per maggiori dettagli, consulta la sezione Preservare i blocchi di pensiero sopra.

Differenze nel pensiero tra le versioni dei modelli

L’API Messages gestisce il pensiero in modo diverso tra i modelli Claude Sonnet 3.7 e Claude 4, principalmente nel comportamento di redazione e riassunto.

Vedi la tabella seguente per un confronto condensato:

FunzionalitàClaude Sonnet 3.7Modelli Claude 4
Output di pensieroRestituisce l’output di pensiero completoRestituisce il pensiero riassunto
Pensiero interlacciatoNon supportatoSupportato con l’header beta interleaved-thinking-2025-05-14

Prezzi

Il pensiero esteso utilizza lo schema di prezzi standard dei token:

ModelloToken di input baseScritture cacheHit cacheToken di output
Claude Opus 4$15 / MTok$18,75 / MTok$1,50 / MTok$75 / MTok
Claude Sonnet 4$3 / MTok$3,75 / MTok$0,30 / MTok$15 / MTok
Claude Sonnet 3.7$3 / MTok$3,75 / MTok$0,30 / MTok$15 / MTok

Il processo di pensiero comporta addebiti per:

  • Token utilizzati durante il pensiero (token di output)
  • Blocchi di pensiero dall’ultimo turno dell’assistente inclusi nelle richieste successive (token di input)
  • Token di output di testo standard

Quando il pensiero esteso è abilitato, un prompt di sistema specializzato viene automaticamente incluso per supportare questa funzionalità.

Quando si utilizza il pensiero riassunto:

  • Token di input: Token nella tua richiesta originale (esclude i token di pensiero dai turni precedenti)
  • Token di output (addebitati): I token di pensiero originali che Claude ha generato internamente
  • Token di output (visibili): I token di pensiero riassunti che vedi nella risposta
  • Nessun addebito: Token utilizzati per generare il riassunto

Il conteggio dei token di output addebitati non corrisponderà al conteggio dei token visibili nella risposta. Ti viene addebitato l’intero processo di pensiero, non il riassunto che vedi.

Migliori pratiche e considerazioni per il pensiero esteso

Lavorare con i budget di pensiero

  • Ottimizzazione del budget: Il budget minimo è di 1.024 token. Suggeriamo di iniziare dal minimo e aumentare il budget di pensiero in modo incrementale per trovare l’intervallo ottimale per il tuo caso d’uso. Conteggi di token più elevati consentono un ragionamento più completo ma con rendimenti decrescenti a seconda del compito. Aumentare il budget può migliorare la qualità della risposta a scapito di una maggiore latenza. Per compiti critici, testa diverse impostazioni per trovare l’equilibrio ottimale. Nota che il budget di pensiero è un obiettivo piuttosto che un limite rigoroso—l’utilizzo effettivo dei token può variare in base al compito.
  • Punti di partenza: Inizia con budget di pensiero più grandi (16k+ token) per compiti complessi e regola in base alle tue esigenze.
  • Budget grandi: Per budget di pensiero superiori a 32k, consigliamo di utilizzare l’elaborazione in batch per evitare problemi di rete. Le richieste che spingono il modello a pensare sopra i 32k token causano richieste di lunga durata che potrebbero scontrarsi con i timeout di sistema e i limiti di connessione aperta.
  • Monitoraggio dell’utilizzo dei token: Monitora l’utilizzo dei token di pensiero per ottimizzare costi e prestazioni.

Considerazioni sulle prestazioni

  • Tempi di risposta: Sii preparato per tempi di risposta potenzialmente più lunghi a causa dell’elaborazione aggiuntiva richiesta per il processo di ragionamento. Tieni conto che la generazione di blocchi di pensiero potrebbe aumentare il tempo di risposta complessivo.
  • Requisiti di streaming: Lo streaming è richiesto quando max_tokens è maggiore di 21.333. Durante lo streaming, sii preparato a gestire sia i blocchi di contenuto di pensiero che di testo man mano che arrivano.

Compatibilità delle funzionalità

  • Il pensiero non è compatibile con le modifiche di temperature o top_k così come con l’uso forzato di strumenti.
  • Quando il pensiero è abilitato, puoi impostare top_p a valori tra 1 e 0,95.
  • Non puoi pre-compilare le risposte quando il pensiero è abilitato.
  • Le modifiche al budget di pensiero invalidano i prefissi di prompt memorizzati nella cache che includono messaggi. Tuttavia, i prompt di sistema memorizzati nella cache e le definizioni degli strumenti continueranno a funzionare quando i parametri di pensiero cambiano.

Linee guida per l’utilizzo

  • Selezione dei compiti: Utilizza il pensiero esteso per compiti particolarmente complessi che beneficiano di un ragionamento passo dopo passo come matematica, codifica e analisi.
  • Gestione del contesto: Non è necessario rimuovere i blocchi di pensiero precedenti da solo. L’API Anthropic ignora automaticamente i blocchi di pensiero dai turni precedenti e non vengono inclusi nel calcolo dell’utilizzo del contesto.
  • Ingegneria dei prompt: Consulta i nostri suggerimenti per l’ingegneria dei prompt con pensiero esteso se vuoi massimizzare le capacità di pensiero di Claude.

Prossimi passi