max_tokens
の合計がモデルのコンテキストウィンドウを超える場合、システムは自動的にmax_tokens
を調整してコンテキスト制限内に収まるようにしていました。これは、大きなmax_tokens
値を設定すると、システムが必要に応じて自動的にそれを削減することを意味していました。
拡張思考モデルでは、max_tokens
(思考が有効な場合は思考予算を含む)は厳格な制限として適用されます。プロンプトトークン + max_tokens
がコンテキストウィンドウサイズを超える場合、システムは検証エラーを返すようになりました。