max_tokens
превышала контекстное окно модели, система автоматически корректировала max_tokens
, чтобы уместиться в пределах контекстного ограничения. Это означало, что вы могли установить большое значение max_tokens
, и система автоматически уменьшала его по мере необходимости.
В моделях с расширенным мышлением max_tokens
(который включает ваш бюджет на мышление, когда мышление включено) применяется как строгое ограничение. Теперь система вернет ошибку валидации, если токены промпта + max_tokens
превысят размер контекстного окна.