max_tokens
superava la finestra di contesto del modello, il sistema avrebbe automaticamente regolato max_tokens
per adattarsi al limite di contesto. Ciò significava che potevi impostare un valore max_tokens
elevato e il sistema lo avrebbe ridotto silenziosamente secondo necessità.
Con i modelli di pensiero esteso, max_tokens
(che include il tuo budget di pensiero quando il pensiero è abilitato) viene applicato come un limite rigoroso. Il sistema ora restituirà un errore di convalida se i token del prompt + max_tokens
superano la dimensione della finestra di contesto.