max_tokens
dépassait la fenêtre de contexte du modèle, le système ajustait automatiquement max_tokens
pour s’adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens
et le système la réduisait silencieusement selon les besoins.
Avec les modèles de réflexion étendue, max_tokens
(qui inclut votre budget de réflexion lorsque la réflexion est activée) est appliqué comme une limite stricte. Le système renverra désormais une erreur de validation si les tokens du prompt + max_tokens
dépassent la taille de la fenêtre de contexte.