Использование компьютера (бета)
Claude 3.7 Sonnet и Claude 3.5 Sonnet (новый) способны взаимодействовать с инструментами, которые могут управлять средой рабочего стола компьютера. Claude 3.7 Sonnet представляет дополнительные инструменты и позволяет включить мышление, давая вам больше понимания процесса рассуждений модели.
Использование компьютера является бета-функцией. Пожалуйста, имейте в виду, что использование компьютера создает уникальные риски, отличные от стандартных функций API или интерфейсов чата. Эти риски возрастают при использовании компьютера для взаимодействия с интернетом. Для минимизации рисков рекомендуется принять такие меры предосторожности, как:
- Использование выделенной виртуальной машины или контейнера с минимальными привилегиями для предотвращения прямых атак на систему или несчастных случаев.
- Избегание предоставления модели доступа к конфиденциальным данным, таким как информация для входа в учетную запись, для предотвращения кражи информации.
- Ограничение доступа в интернет списком разрешенных доменов для уменьшения воздействия вредоносного контента.
- Запрос подтверждения у человека для решений, которые могут привести к значимым последствиям в реальном мире, а также для любых задач, требующих явного согласия, таких как принятие файлов cookie, выполнение финансовых транзакций или согласие с условиями использования.
В некоторых случаях Claude будет следовать командам, найденным в контенте, даже если это противоречит инструкциям пользователя. Например, инструкции Claude на веб-страницах или содержащиеся в изображениях могут переопределить инструкции или привести к ошибкам Claude. Мы предлагаем принять меры предосторожности для изоляции Claude от конфиденциальных данных и действий во избежание рисков, связанных с инъекцией промптов.
Наконец, пожалуйста, информируйте конечных пользователей о соответствующих рисках и получайте их согласие перед включением использования компьютера в ваших собственных продуктах.
Эталонная реализация использования компьютера
Быстро начните работу с нашей эталонной реализацией использования компьютера, которая включает веб-интерфейс, Docker-контейнер, примеры реализации инструментов и цикл агента.
Примечание: Реализация была обновлена и включает новые инструменты для Claude 3.7 Sonnet. Обязательно получите последнюю версию репозитория для доступа к этим новым функциям.
Пожалуйста, используйте эту форму для предоставления обратной связи о качестве ответов модели, самом API или качестве документации - мы с нетерпением ждем ваших отзывов!
Вот пример того, как предоставить инструменты использования компьютера Claude с помощью API Messages:
Как работает использование компьютера
1. Предоставьте Claude инструменты использования компьютера и запрос пользователя
- Добавьте определенные Anthropic инструменты использования компьютера в ваш API-запрос.
- Включите запрос пользователя, который может потребовать эти инструменты, например, “Сохрани картинку кота на мой рабочий стол.”
2. Claude решает использовать инструмент
- Claude загружает сохраненные определения инструментов использования компьютера и оценивает, могут ли какие-либо инструменты помочь с запросом пользователя.
- Если да, Claude создает правильно отформатированный запрос на использование инструмента.
- API-ответ имеет
stop_reason
равныйtool_use
, сигнализируя о намерении Claude.
3. Извлеките входные данные инструмента, выполните инструмент на компьютере и верните результаты
- На вашей стороне извлеките имя инструмента и входные данные из запроса Claude.
- Используйте инструмент в контейнере или виртуальной машине.
- Продолжите разговор с новым сообщением
user
, содержащим блок контентаtool_result
.
4. Claude продолжает вызывать инструменты использования компьютера, пока не завершит задачу
- Claude анализирует результаты инструмента, чтобы определить, нужно ли дополнительное использование инструмента или задача выполнена.
- Если Claude решает, что ему нужен другой инструмент, он отвечает с другим
stop_reason
равнымtool_use
, и вы должны вернуться к шагу 3. - В противном случае он создает текстовый ответ пользователю.
Мы называем повторение шагов 3 и 4 без пользовательского ввода “циклом агента” - то есть, Claude отвечает запросом на использование инструмента, а ваше приложение отвечает Claude результатами оценки этого запроса.
Вычислительная среда
Использование компьютера требует изолированной вычислительной среды, где Claude может безопасно взаимодействовать с приложениями и веб-сайтами. Эта среда включает:
-
Виртуальный дисплей: Виртуальный X11-сервер дисплея (использующий Xvfb), который отображает интерфейс рабочего стола, который Claude будет видеть через скриншоты и управлять с помощью действий мыши/клавиатуры.
-
Среда рабочего стола: Легкий пользовательский интерфейс с оконным менеджером (Mutter) и панелью (Tint2), работающий на Linux, который обеспечивает последовательный графический интерфейс для взаимодействия Claude.
-
Приложения: Предустановленные Linux-приложения, такие как Firefox, LibreOffice, текстовые редакторы и файловые менеджеры, которые Claude может использовать для выполнения задач.
-
Реализации инструментов: Интеграционный код, который преобразует абстрактные запросы инструментов Claude (например, “переместить мышь” или “сделать скриншот”) в реальные операции в виртуальной среде.
-
Цикл агента: Программа, которая обрабатывает коммуникацию между Claude и средой, отправляя действия Claude в среду и возвращая результаты (скриншоты, выводы команд) обратно Claude.
Когда вы используете компьютер, Claude не подключается к этой среде напрямую. Вместо этого ваше приложение:
- Получает запросы на использование инструментов от Claude
- Преобразует их в действия в вашей вычислительной среде
- Захватывает результаты (скриншоты, выводы команд и т.д.)
- Возвращает эти результаты Claude
Для безопасности и изоляции эталонная реализация запускает все это внутри Docker-контейнера с соответствующими сопоставлениями портов для просмотра и взаимодействия со средой.
Как реализовать использование компьютера
Начните с нашей эталонной реализации
Мы создали эталонную реализацию, которая включает все необходимое для быстрого начала работы с использованием компьютера:
- Контейнеризованную среду, подходящую для использования компьютера с Claude
- Реализации инструментов использования компьютера
- Цикл агента, который взаимодействует с API Anthropic и выполняет инструменты использования компьютера
- Веб-интерфейс для взаимодействия с контейнером, циклом агента и инструментами.
Понимание цикла мульти-агента
Основой использования компьютера является “цикл агента” - цикл, где Claude запрашивает действия инструментов, ваше приложение выполняет их и возвращает результаты Claude. Вот упрощенный пример:
Цикл продолжается до тех пор, пока либо Claude не ответит без запроса каких-либо инструментов (завершение задачи), либо не будет достигнут максимальный предел итераций. Эта защита предотвращает потенциальные бесконечные циклы, которые могли бы привести к неожиданным затратам API.
Для каждой версии инструментов вы должны использовать соответствующий бета-флаг в вашем API-запросе:
Мы рекомендуем попробовать эталонную реализацию перед чтением остальной части этой документации.
Оптимизация производительности модели с помощью промптов
Вот несколько советов о том, как получить лучшее качество выходных данных:
- Указывайте простые, четко определенные задачи и предоставляйте явные инструкции для каждого шага.
- Claude иногда предполагает результаты своих действий, не проверяя их явно. Чтобы предотвратить это, вы можете дать Claude промпт:
После каждого шага делай скриншот и тщательно оценивай, достиг ли ты правильного результата. Явно показывай свои размышления: "Я оценил шаг X..." Если результат неверный, попробуй снова. Только когда ты подтвердишь, что шаг был выполнен правильно, переходи к следующему.
- Некоторые элементы пользовательского интерфейса (например, выпадающие списки и полосы прокрутки) могут быть сложными для манипуляции Claude с помощью движений мыши. Если вы столкнулись с этим, попробуйте предложить модели использовать сочетания клавиш.
- Для повторяющихся задач или взаимодействий с пользовательским интерфейсом включите в ваш промпт примеры скриншотов и вызовов инструментов успешных результатов.
- Если вам нужно, чтобы модель вошла в систему, предоставьте ей имя пользователя и пароль в вашем промпте внутри xml-тегов, например
<robot_credentials>
. Использование компьютера в приложениях, требующих входа в систему, увеличивает риск плохих результатов в результате инъекции промптов. Пожалуйста, ознакомьтесь с нашим руководством по смягчению инъекций промптов перед предоставлением модели учетных данных для входа.
Если вы неоднократно сталкиваетесь с четким набором проблем или заранее знаете задачи, которые Claude нужно будет выполнить, используйте системный промпт, чтобы предоставить Claude явные советы или инструкции о том, как успешно выполнить задачи.
Системные промпты
Когда один из определенных Anthropic инструментов запрашивается через API Anthropic, генерируется системный промпт, специфичный для использования компьютера. Он похож на системный промпт использования инструментов, но начинается с:
У вас есть доступ к набору функций, которые вы можете использовать для ответа на вопрос пользователя. Это включает доступ к изолированной вычислительной среде. В настоящее время у вас НЕТ возможности проверять файлы или взаимодействовать с внешними ресурсами, кроме как путем вызова приведенных ниже функций.
Как и при обычном использовании инструментов, предоставленное пользователем поле system_prompt
по-прежнему учитывается и используется при построении комбинированного системного промпта.
Понимание инструментов, определенных Anthropic
Мы предоставили набор инструментов, которые позволяют Claude эффективно использовать компьютеры. При указании инструмента, определенного Anthropic, поля description
и tool_schema
не нужны и не разрешены.
Инструменты, определенные Anthropic, выполняются пользователем
Инструменты, определенные Anthropic, определяются Anthropic, но вы должны явно оценивать результаты инструмента и возвращать tool_results
Claude. Как и с любым инструментом, модель не выполняет инструмент автоматически.
Мы предоставляем набор инструментов, определенных Anthropic, причем каждый инструмент имеет версии, оптимизированные как для Claude 3.5 Sonnet (новый), так и для Claude 3.7 Sonnet:
Поле type
идентифицирует инструмент и его параметры для целей валидации, поле name
- это имя инструмента, предоставляемое модели.
Если вы хотите предложить модели использовать один из этих инструментов, вы можете явно сослаться на инструмент по полю name
. Поле name
должно быть уникальным в списке инструментов; вы не можете определить инструмент с тем же именем, что и инструмент, определенный Anthropic, в том же API-вызове.
Мы не рекомендуем определять инструменты с именами инструментов, определенных Anthropic.
Хотя вы все еще можете переопределять инструменты с этими именами (если имя инструмента
уникально в вашем блоке tools
), это может привести к ухудшению производительности модели.
Включение возможности мышления в Claude 3.7 Sonnet
Claude 3.7 Sonnet представляет новую возможность “мышления”, которая позволяет вам видеть процесс рассуждений модели при работе над сложными задачами. Эта функция помогает вам понять, как Claude подходит к проблеме, и может быть особенно ценной для отладки или образовательных целей.
Чтобы включить мышление, добавьте параметр thinking
в ваш API-запрос:
Параметр budget_tokens
указывает, сколько токенов Claude может использовать для мышления. Это вычитается из вашего общего бюджета max_tokens
.
Когда мышление включено, Claude будет возвращать свой процесс рассуждений как часть ответа, что может помочь вам:
- Понять процесс принятия решений модели
- Определить потенциальные проблемы или заблуждения
- Учиться на подходе Claude к решению проблем
- Получить больше видимости в сложных многошаговых операциях
Вот пример того, как может выглядеть вывод мышления:
Комбинирование использования компьютера с другими инструментами
Вы можете комбинировать обычное использование инструментов с инструментами, определенными Anthropic для использования компьютера.
Создание пользовательской среды использования компьютера
Эталонная реализация предназначена для того, чтобы помочь вам начать работу с использованием компьютера. Она включает все компоненты, необходимые для того, чтобы Claude использовал компьютер. Однако вы можете создать свою собственную среду для использования компьютера в соответствии с вашими потребностями. Вам понадобится:
- Виртуализированная или контейнеризованная среда, подходящая для использования компьютера с Claude
- Реализация как минимум одного из определенных Anthropic инструментов использования компьютера
- Цикл агента, который взаимодействует с API Anthropic и выполняет результаты
tool_use
с помощью ваших реализаций инструментов - API или пользовательский интерфейс, который позволяет пользовательский ввод для запуска цикла агента
Понимание ограничений использования компьютера
Функциональность использования компьютера находится в бета-версии. Хотя возможности Claude являются передовыми, разработчики должны знать о его ограничениях:
- Задержка: текущая задержка использования компьютера для взаимодействий человек-ИИ может быть слишком медленной по сравнению с обычными действиями компьютера, направляемыми человеком. Мы рекомендуем сосредоточиться на случаях использования, где скорость не критична (например, фоновый сбор информации, автоматизированное тестирование программного обеспечения) в доверенных средах.
- Точность и надежность компьютерного зрения: Claude может делать ошибки или галлюцинировать при выводе конкретных координат при генерации действий. Claude 3.7 Sonnet представляет возможность мышления, которая может помочь вам понять рассуждения модели и определить потенциальные проблемы.
- Точность и надежность выбора инструментов: Claude может делать ошибки или галлюцинировать при выборе инструментов при генерации действий или предпринимать неожиданные действия для решения проблем. Кроме того, надежность может быть ниже при взаимодействии с нишевыми приложениями или несколькими приложениями одновременно. Мы рекомендуем пользователям тщательно формулировать запросы модели при запросе сложных задач.
- Надежность прокрутки: Хотя Claude 3.5 Sonnet (новый) имел ограничения с прокруткой, Claude 3.7 Sonnet представляет специальные действия прокрутки с контролем направления, что улучшает надежность. Теперь модель может явно прокручивать в любом направлении (вверх/вниз/влево/вправо) на указанное количество.
- Взаимодействие с электронными таблицами: Клики мышью для взаимодействия с электронными таблицами улучшились в Claude 3.7 Sonnet с добавлением более точных действий управления мышью, таких как
left_mouse_down
,left_mouse_up
, и новой поддержки модификаторов клавиш. Выбор ячеек может быть более надежным при использовании этих точных элементов управления и комбинировании модификаторов клавиш с кликами. - Создание учетных записей и генерация контента на социальных платформах и платформах связи: Хотя Claude будет посещать веб-сайты, мы ограничиваем его способность создавать учетные записи или генерировать и делиться контентом или иным образом заниматься имитацией человека в социальных сетях и платформах. Мы можем обновить эту возможность в будущем.
- Уязвимости: Уязвимости, такие как джейлбрейк или инъекция промптов, могут сохраняться в передовых системах ИИ, включая бета-версию API использования компьютера. В некоторых обстоятельствах Claude будет следовать командам, найденным в контенте, иногда даже в противоречии с инструкциями пользователя. Например, инструкции Claude на веб-страницах или содержащиеся в изображениях могут переопределить инструкции или привести к ошибкам Claude. Мы рекомендуем: a. Ограничение использования компьютера доверенными средами, такими как виртуальные машины или контейнеры с минимальными привилегиями b. Избегание предоставления доступа к использованию компьютера для конфиденциальных учетных записей или данных без строгого надзора c. Информирование конечных пользователей о соответствующих рисках и получение их согласия перед включением или запросом разрешений, необходимых для функций использования компьютера в ваших приложениях
- Неприемлемые или незаконные действия: Согласно условиям обслуживания Anthropic, вы не должны использовать компьютер для нарушения каких-либо законов или нашей Политики приемлемого использования.
Всегда тщательно проверяйте действия и логи использования компьютера Claude. Не используйте Claude для задач, требующих идеальной точности или конфиденциальной пользовательской информации без надзора человека.
Ценообразование
См. документацию по ценообразованию использования инструментов для подробного объяснения того, как оцениваются запросы API использования инструментов Claude.
Как подмножество запросов на использование инструментов, запросы на использование компьютера оцениваются так же, как и любой другой запрос API Claude.
Мы также автоматически включаем специальный системный промпт для модели, который включает использование компьютера.
Модель | Выбор инструмента | Количество токенов системного промпта |
---|---|---|
Claude 3.5 Sonnet (новый) | auto any , tool | 466 токенов 499 токенов |
Claude 3.7 Sonnet | auto any , tool | 466 токенов 499 токенов |
В дополнение к базовым токенам, следующие дополнительные входные токены необходимы для инструментов, определенных Anthropic:
Инструмент | Дополнительные входные токены |
---|---|
computer_20241022 (Claude 3.5 Sonnet) | 683 токена |
computer_20250124 (Claude 3.7 Sonnet) | 735 токенов |
text_editor_20241022 (Claude 3.5 Sonnet) | 700 токенов |
text_editor_20250124 (Claude 3.7 Sonnet) | 700 токенов |
bash_20241022 (Claude 3.5 Sonnet) | 245 токенов |
bash_20250124 (Claude 3.7 Sonnet) | 245 токенов |
Если вы включите мышление с Claude 3.7 Sonnet, токены, используемые для мышления, будут учитываться в вашем бюджете max_tokens
на основе budget_tokens
, который вы указываете в параметре мышления.
Was this page helpful?