claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
, где он выводит свои внутренние рассуждения. Claude включает идеи из этих рассуждений перед созданием окончательного ответа.
Ответ API будет включать блоки содержимого thinking
, за которыми следуют блоки содержимого text
.
Вот пример формата ответа по умолчанию:
thinking
с параметром type
, установленным в enabled
, и budget_tokens
в указанный бюджет токенов для расширенного мышления.
Параметр budget_tokens
определяет максимальное количество токенов, которое Claude разрешено использовать для своего внутреннего процесса рассуждения. В моделях Claude 4 этот лимит применяется к полным токенам мышления, а не к суммированному выводу. Большие бюджеты могут улучшить качество ответов, обеспечивая более тщательный анализ сложных проблем, хотя Claude может не использовать весь выделенный бюджет, особенно в диапазонах выше 32k.
budget_tokens
должен быть установлен в значение меньше max_tokens
. Однако при использовании чередующегося мышления с инструментами вы можете превысить этот лимит, поскольку лимит токенов становится всем вашим контекстным окном (200k токенов).
thinking_delta
.
Для получения дополнительной документации по потоковой передаче через Messages API см. Потоковые сообщения.
Вот как обрабатывать потоковую передачу с мышлением:
tool_choice: {"type": "auto"}
(по умолчанию) или tool_choice: {"type": "none"}
. Использование tool_choice: {"type": "any"}
или tool_choice: {"type": "tool", "name": "..."}
приведет к ошибке, поскольку эти опции принуждают к использованию инструментов, что несовместимо с расширенным мышлением.
thinking
обратно в API для последнего сообщения ассистента. Включите полный неизмененный блок обратно в API для поддержания непрерывности рассуждений.
Пример: Передача блоков мышления с результатами инструментов
thinking
обратно в API, и вы должны включить полный неизмененный блок обратно в API. Это критически важно для поддержания потока рассуждений модели и целостности разговора.
thinking
из предыдущих ходов assistant
, мы предлагаем всегда передавать обратно все блоки мышления в API для любого многоходового разговора. API будет:thinking
вся последовательность последовательных блоков thinking
должна соответствовать выводам, сгенерированным моделью во время исходного запроса; вы не можете переставлять или изменять последовательность этих блоков.
interleaved-thinking-2025-05-14
к вашему API-запросу.
Вот некоторые важные соображения для чередующегося мышления:
budget_tokens
может превышать параметр max_tokens
, поскольку он представляет общий бюджет для всех блоков мышления в рамках одного хода ассистента.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
в запросах к любой модели без эффекта.interleaved-thinking-2025-05-14
любой модели, кроме Claude Opus 4.1, Opus 4 или Sonnet 4, ваш запрос завершится неудачей.Использование инструментов без чередующегося мышления
Использование инструментов с чередующимся мышлением
cache_control
Кэширование системного промпта (сохраняется при изменениях мышления)
Кэширование сообщений (инвалидируется при изменениях мышления)
cache_creation_input_tokens=1370
и cache_read_input_tokens=0
, доказывая, что кэширование на основе сообщений инвалидируется при изменении параметров мышления.max_tokens
превышала контекстное окно модели, система автоматически корректировала max_tokens
для соответствия лимиту контекста. Это означало, что вы могли установить большое значение max_tokens
, и система молча уменьшала его по мере необходимости.
С моделями Claude 3.7 и 4 max_tokens
(который включает ваш бюджет мышления при включенном мышлении) применяется как строгий лимит. Система теперь вернет ошибку валидации, если токены промпта + max_tokens
превышают размер контекстного окна.
max_tokens
для этого ходаmax_tokens
с расширенным мышлением в моделях Claude 3.7 и 4, вам может потребоваться:
max_tokens
по мере изменения длины промптаsignature
. Это поле используется для проверки того, что блоки мышления были сгенерированы Claude при передаче обратно в API.
signature_delta
внутри события content_block_delta
непосредственно перед событием content_block_stop
.signature
значительно длиннее в моделях Claude 4, чем в предыдущих моделях.signature
является непрозрачным полем и не должно интерпретироваться или анализироваться - оно существует исключительно для целей проверки.signature
совместимы между платформами (API Anthropic, Amazon Bedrock и Vertex AI). Значения, сгенерированные на одной платформе, будут совместимы с другой.thinking
и возвращаем их вам как блок redacted_thinking
. Блоки redacted_thinking
расшифровываются при передаче обратно в API, позволяя Claude продолжить свой ответ без потери контекста.
При создании клиентских приложений, использующих расширенное мышление:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
и redacted_thinking
обратно в API в многоходовом разговоре вы должны включить полный неизмененный блок обратно в API для последнего хода ассистента. Это критически важно для поддержания потока рассуждений модели. Мы предлагаем всегда передавать обратно все блоки мышления в API. Для получения дополнительных деталей см. раздел Сохранение блоков мышления выше.
Пример: Работа с редактированными блоками мышления
redacted_thinking
, которые могут появляться в ответах, когда внутренние рассуждения Claude содержат содержимое, отмеченное системами безопасности:Функция | Claude Sonnet 3.7 | Модели Claude 4 |
---|---|---|
Вывод мышления | Возвращает полный вывод мышления | Возвращает суммированное мышление |
Чередующееся мышление | Не поддерживается | Поддерживается с бета-заголовком interleaved-thinking-2025-05-14 |
Модель | Базовые входные токены | Записи кэша | Попадания в кэш | Выходные токены |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
max_tokens
больше 21,333. При потоковой передаче будьте готовы обрабатывать как блоки содержимого мышления, так и текстовые блоки по мере их поступления.temperature
или top_k
, а также с принудительным использованием инструментов.top_p
в значения между 1 и 0.95.