max_tokens
excedía la ventana de contexto del modelo, el sistema ajustaba automáticamente max_tokens
para que cupiera dentro del límite de contexto. Esto significaba que podías establecer un valor grande de max_tokens
y el sistema lo reduciría silenciosamente según fuera necesario.
Con los modelos de pensamiento extendido, max_tokens
(que incluye tu presupuesto de pensamiento cuando el pensamiento está habilitado) se aplica como un límite estricto. El sistema ahora devolverá un error de validación si los tokens de indicación + max_tokens
exceden el tamaño de la ventana de contexto.