Claude可以通过计算机使用工具与计算机环境交互,该工具提供截图功能和鼠标/键盘控制,实现自主桌面交互。
"computer-use-2025-01-24"
(Claude 4和3.7模型)"computer-use-2024-10-22"
(Claude Sonnet 3.5)模型 | 工具版本 | 测试版标志 |
---|---|---|
Claude 4 Opus & Sonnet | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 (new) | computer_20241022 | computer-use-2024-10-22 |
1. 为Claude提供计算机使用工具和用户提示
2. Claude决定使用计算机使用工具
stop_reason
为tool_use
,表示Claude的意图。3. 提取工具输入,在计算机上评估工具,并返回结果
tool_result
内容块的新user
消息继续对话。4. Claude继续调用计算机使用工具,直到完成任务
tool_use
stop_reason
,您应该返回到步骤3。Claude 4模型
computer_20250124
时,包含此测试版标志:Claude Sonnet 3.7
computer_20250124
时,包含此测试版标志:Claude Sonnet 3.5 (new)
computer_20241022
时,包含此测试版标志:在每个步骤之后,截图并仔细评估您是否达到了正确的结果。明确显示您的思考:"我已经评估了步骤X..."如果不正确,请重试。只有当您确认步骤正确执行时,才应该继续下一步。
<robot_credentials>
。在需要登录的应用程序中使用计算机使用会增加由于提示注入而导致不良结果的风险。在向模型提供登录凭据之前,请查看我们的缓解提示注入指南。您可以访问一组函数,可以用来回答用户的问题。这包括访问沙盒计算环境。除了调用以下函数外,您目前没有检查文件或与外部资源交互的能力。与常规工具使用一样,用户提供的
system_prompt
字段仍然受到尊重,并用于构建组合系统提示。
[x, y]
处点击computer_20250124
)
在Claude 4和Claude Sonnet 3.7中可用:
示例操作
参数 | 必需 | 描述 |
---|---|---|
type | 是 | 工具版本(computer_20250124 或computer_20241022 ) |
name | 是 | 必须是”computer” |
display_width_px | 是 | 显示宽度(像素) |
display_height_px | 是 | 显示高度(像素) |
display_number | 否 | X11环境的显示编号 |
thinking
参数:
budget_tokens
参数指定Claude可以用于思考的令牌数量。这将从您的整体max_tokens
预算中扣除。
启用思考后,Claude将返回其推理过程作为响应的一部分,这可以帮助您:
tool_use
结果的代理循环设置您的计算环境
实现操作处理程序
处理Claude的工具调用
实现代理循环
截图捕获失败
无效坐标
操作执行失败
使用适当的显示分辨率
实现适当的截图处理
添加操作延迟
在执行前验证操作
记录操作以进行调试
left_mouse_down
、left_mouse_up
和新的修饰键支持。通过使用这些细粒度控制并将修饰键与点击结合,单元格选择可以更可靠。Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |