claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
dove produce il suo ragionamento interno. Claude incorpora le intuizioni da questo ragionamento prima di elaborare una risposta finale.
La risposta dell’API includerà blocchi di contenuto thinking
, seguiti da blocchi di contenuto text
.
Ecco un esempio del formato di risposta predefinito:
thinking
, con il parametro type
impostato su enabled
e il budget_tokens
a un budget di token specificato per il pensiero esteso.
Il parametro budget_tokens
determina il numero massimo di token che Claude è autorizzato a utilizzare per il suo processo di ragionamento interno. Nei modelli Claude 4, questo limite si applica ai token di pensiero completi, e non all’output riassunto. Budget più grandi possono migliorare la qualità della risposta consentendo un’analisi più approfondita per problemi complessi, anche se Claude potrebbe non utilizzare l’intero budget allocato, specialmente a intervalli superiori a 32k.
budget_tokens
deve essere impostato su un valore inferiore a max_tokens
. Tuttavia, quando si utilizza il pensiero interlacciato con strumenti, è possibile superare questo limite poiché il limite di token diventa l’intera finestra di contesto (200k token).
thinking_delta
.
Per maggiore documentazione sullo streaming tramite l’API Messages, vedere Streaming Messages.
Ecco come gestire lo streaming con il pensiero:
tool_choice: {"type": "auto"}
(il predefinito) o tool_choice: {"type": "none"}
. L’utilizzo di tool_choice: {"type": "any"}
o tool_choice: {"type": "tool", "name": "..."}
risulterà in un errore perché queste opzioni forzano l’uso dello strumento, che è incompatibile con il pensiero esteso.
thinking
di nuovo all’API per l’ultimo messaggio dell’assistente. Includi il blocco completo non modificato di nuovo all’API per mantenere la continuità del ragionamento.
Esempio: Passare blocchi di pensiero con risultati degli strumenti
thinking
di nuovo all’API, e devi includere il blocco completo non modificato di nuovo all’API. Questo è critico per mantenere il flusso di ragionamento del modello e l’integrità della conversazione.
thinking
dai turni precedenti del ruolo assistant
, suggeriamo di passare sempre tutti i blocchi di pensiero all’API per qualsiasi conversazione multi-turno. L’API:thinking
, l’intera sequenza di blocchi thinking
consecutivi deve corrispondere agli output generati dal modello durante la richiesta originale; non puoi riorganizzare o modificare la sequenza di questi blocchi.
interleaved-thinking-2025-05-14
alla tua richiesta API.
Ecco alcune considerazioni importanti per il pensiero interlacciato:
budget_tokens
può superare il parametro max_tokens
, poiché rappresenta il budget totale attraverso tutti i blocchi di pensiero all’interno di un turno dell’assistente.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
nelle richieste a qualsiasi modello, senza effetto.interleaved-thinking-2025-05-14
a qualsiasi modello diverso da Claude Opus 4.1, Opus 4, o Sonnet 4, la tua richiesta fallirà.Uso di strumenti senza pensiero interlacciato
Uso di strumenti con pensiero interlacciato
cache_control
esplicitiCache del prompt di sistema (preservata quando il pensiero cambia)
Cache dei messaggi (invalidata quando il pensiero cambia)
cache_creation_input_tokens=1370
e cache_read_input_tokens=0
, dimostrando che il caching basato sui messaggi è invalidato quando i parametri di pensiero cambiano.max_tokens
superava la finestra di contesto del modello, il sistema regolava automaticamente max_tokens
per adattarsi al limite del contesto. Questo significava che potevi impostare un valore max_tokens
grande e il sistema lo avrebbe ridotto silenziosamente secondo necessità.
Con i modelli Claude 3.7 e 4, max_tokens
(che include il tuo budget di pensiero quando il pensiero è abilitato) è applicato come limite rigoroso. Il sistema ora restituirà un errore di validazione se i token del prompt + max_tokens
superano la dimensione della finestra di contesto.
max_tokens
per quel turnomax_tokens
con i modelli Claude 3.7 e 4 di pensiero esteso, potresti dover:
max_tokens
man mano che la lunghezza del tuo prompt cambiasignature
. Questo campo è utilizzato per verificare che i blocchi di pensiero siano stati generati da Claude quando passati di nuovo all’API.
signature_delta
all’interno di un evento content_block_delta
appena prima dell’evento content_block_stop
.signature
sono significativamente più lunghi nei modelli Claude 4 rispetto ai modelli precedenti.signature
è un campo opaco e non dovrebbe essere interpretato o analizzato - esiste esclusivamente per scopi di verifica.signature
sono compatibili tra piattaforme (API Anthropic, Amazon Bedrock, e Vertex AI). I valori generati su una piattaforma saranno compatibili con un’altra.thinking
e te lo restituiamo come blocco redacted_thinking
. I blocchi redacted_thinking
vengono decrittografati quando passati di nuovo all’API, permettendo a Claude di continuare la sua risposta senza perdere contesto.
Quando costruisci applicazioni rivolte ai clienti che utilizzano il pensiero esteso:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
e redacted_thinking
di nuovo all’API in una conversazione multi-turno, devi includere il blocco completo non modificato di nuovo all’API per l’ultimo turno dell’assistente. Questo è critico per mantenere il flusso di ragionamento del modello. Suggeriamo di passare sempre tutti i blocchi di pensiero di nuovo all’API. Per maggiori dettagli, vedere la sezione Preservare i blocchi di pensiero sopra.
Esempio: Lavorare con blocchi di pensiero redatti
redacted_thinking
che possono apparire nelle risposte quando il ragionamento interno di Claude contiene contenuto segnalato dai sistemi di sicurezza:Funzione | Claude Sonnet 3.7 | Modelli Claude 4 |
---|---|---|
Output del Pensiero | Restituisce output di pensiero completo | Restituisce pensiero riassunto |
Pensiero Interlacciato | Non supportato | Supportato con header beta interleaved-thinking-2025-05-14 |
Modello | Token di Input Base | Scritture Cache | Hit Cache | Token di Output |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
max_tokens
è maggiore di 21.333. Quando fai streaming, preparati a gestire sia blocchi di contenuto di pensiero che di testo man mano che arrivano.temperature
o top_k
così come uso forzato di strumenti.top_p
a valori tra 1 e 0.95.