电脑使用（测试版）

Claude 4 Opus 和 Sonnet，以及 Claude Sonnet 3.7 和 Claude Sonnet 3.5（新版）能够与可以操控计算机桌面环境的工具进行交互。Claude 4 模型使用针对新架构优化的更新工具版本。Claude Sonnet 3.7 引入了额外的工具，并允许您启用思考功能，让您更深入地了解模型的推理过程。

电脑使用是一项测试版功能。请注意，电脑使用功能带来的风险与标准 API 功能或聊天界面的风险不同。当使用电脑使用功能与互联网交互时，这些风险会更高。为了最小化风险，请考虑采取以下预防措施：

使用具有最小权限的专用虚拟机或容器，以防止直接系统攻击或意外。
避免让模型访问敏感数据，如账户登录信息，以防止信息被盗。
将互联网访问限制在允许列表中的域名范围内，以减少接触恶意内容的可能性。
对可能导致实际后果的决定以及任何需要明确同意的任务（如接受 cookie、执行金融交易或同意服务条款）请求人工确认。

在某些情况下，Claude 会遵循内容中的命令，即使这与用户的指示相冲突。例如，网页上的 Claude 指令或图像中包含的指令可能会覆盖指令或导致 Claude 出错。我们建议采取预防措施，将 Claude 与敏感数据和操作隔离，以避免与提示注入相关的风险。我们已经训练模型抵抗这些提示注入，并添加了额外的防御层。如果您使用我们的电脑使用工具，我们将自动对您的提示运行分类器，以标记潜在的提示注入实例。当这些分类器在截图中识别到潜在的提示注入时，它们将自动引导模型在继续下一个操作之前请求用户确认。我们认识到这种额外的保护并不适合每个用例（例如，没有人在循环中的用例），因此如果您想选择退出并关闭它，请联系我们。我们仍然建议采取预防措施，将 Claude 与敏感数据和操作隔离，以避免与提示注入相关的风险。最后，请在您自己的产品中启用电脑使用功能之前，告知最终用户相关风险并获得他们的同意。

电脑使用参考实现

通过我们的电脑使用参考实现快速入门，其中包括网页界面、Docker 容器、示例工具实现和代理循环。注意： 该实现已更新，包含了 Claude 4 和 Claude Sonnet 3.7 的新工具。请确保拉取最新版本的代码库以访问这些新功能。

请使用此表单提供关于模型响应质量、API 本身或文档质量的反馈 - 我们迫不及待想听取您的意见！

以下是如何使用 Messages API 向 Claude 提供电脑使用工具的示例：

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Save a picture of a cat to my desktop."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

电脑使用的工作原理

1. 向 Claude 提供电脑使用工具和用户提示

在您的 API 请求中添加 Anthropic 定义的电脑使用工具。
包含可能需要这些工具的用户提示，例如”将猫的图片保存到我的桌面。”

2. Claude 决定使用工具

Claude 加载存储的电脑使用工具定义，并评估是否有任何工具可以帮助解决用户的查询。
如果是，Claude 构建一个格式正确的工具使用请求。
API 响应的 stop_reason 为 tool_use，表示 Claude 的意图。

3. 提取工具输入，在计算机上评估工具，并返回结果

在您的端，从 Claude 的请求中提取工具名称和输入。
在容器或虚拟机上使用该工具。
继续对话，发送包含 tool_result 内容块的新 user 消息。

4. Claude 继续调用电脑使用工具，直到完成任务

Claude 分析工具结果，确定是否需要更多工具使用或任务已完成。
如果 Claude 决定需要另一个工具，它会再次响应 tool_use stop_reason，您应该返回步骤 3。
否则，它会为用户创建文本响应。

我们将在没有用户输入的情况下重复步骤 3 和 4 称为”代理循环” - 即 Claude 响应工具使用请求，而您的应用程序则响应 Claude 并提供评估该请求的结果。

计算环境

电脑使用需要一个沙盒计算环境，Claude 可以在其中安全地与应用程序和网络交互。该环境包括：

虚拟显示器：虚拟 X11 显示服务器（使用 Xvfb），通过截图渲染 Claude 将看到的桌面界面，并通过鼠标/键盘操作进行控制。
桌面环境：在 Linux 上运行的轻量级 UI，带有窗口管理器（Mutter）和面板（Tint2），为 Claude 提供一致的图形界面进行交互。
应用程序：预安装的 Linux 应用程序，如 Firefox、LibreOffice、文本编辑器和文件管理器，Claude 可以使用这些应用程序完成任务。
工具实现：集成代码，将 Claude 的抽象工具请求（如”移动鼠标”或”截图”）转换为虚拟环境中的实际操作。
代理循环：处理 Claude 与环境之间通信的程序，将 Claude 的操作发送到环境，并将结果（截图、命令输出）返回给 Claude。

当您使用电脑使用功能时，Claude 不会直接连接到这个环境。相反，您的应用程序：

接收 Claude 的工具使用请求
将它们转换为您的计算环境中的操作
捕获结果（截图、命令输出等）
将这些结果返回给 Claude

为了安全和隔离，参考实现将所有这些都运行在 Docker 容器内，并具有适当的端口映射，用于查看和与环境交互。

如何实现电脑使用

从我们的参考实现开始

我们构建了一个参考实现，其中包含了您快速开始使用电脑使用所需的一切：

一个适合 Claude 电脑使用的容器化环境
电脑使用工具的实现
一个与 Anthropic API 交互并执行电脑使用工具的代理循环
一个用于与容器、代理循环和工具交互的网页界面。

理解多代理循环

电脑使用的核心是”代理循环” - 一个循环，其中 Claude 请求工具操作，您的应用程序执行这些操作，并将结果返回给 Claude。以下是一个简化示例：

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # 添加迭代限制以防止无限循环
):
    """
    Claude 电脑使用交互的简单代理循环。

    此函数处理以下往返过程：
    1. 向 Claude 发送用户消息
    2. Claude 请求使用工具
    3. 您的应用执行这些工具
    4. 将工具结果发送回 Claude
    """
    # 设置工具和 API 参数
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # 配置工具 - 您应该已经在其他地方初始化了这些
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # 主代理循环（带有迭代限制，以防止 API 成本失控）
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # 设置可选的思考参数（用于 Claude Sonnet 3.7）
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # 调用 Claude API
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # 将 Claude 的响应添加到对话历史
        response_content = response.content
        messages.append({"role": "assistant", "content":response_content})

        # 检查 Claude 是否使用了任何工具
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # 在实际应用中，您会在这里执行工具
                # 例如：result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # 为 Claude 格式化结果
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # 如果没有使用工具，Claude 已完成 - 返回最终消息
        if not tool_results:
            return messages

        # 将工具结果添加到消息中，用于下一轮与 Claude 的交互
        messages.append({"role": "user", "content": tool_results})

循环继续，直到 Claude 响应时不请求任何工具（任务完成）或达到最大迭代限制。这种保障措施可防止可能导致意外 API 成本的潜在无限循环。

对于每个版本的工具，您必须在 API 请求中使用相应的测试版标志：

Claude 4 测试版标志

Claude Sonnet 3.7 测试版标志

Claude Sonnet 3.5（新版）测试版标志

我们建议在阅读本文档的其余部分之前先尝试参考实现。

通过提示优化模型性能

以下是一些获得最佳质量输出的提示：

指定简单、明确定义的任务，并为每个步骤提供明确的指示。
Claude 有时会假设其操作的结果，而不明确检查这些结果。为防止这种情况，您可以提示 Claude：“在每个步骤之后，截取屏幕截图并仔细评估您是否已经达到了正确的结果。明确展示您的思考过程：‘我已评估步骤 X…’如果不正确，请重试。只有当您确认步骤已正确执行时，才能继续下一步。”
某些 UI 元素（如下拉菜单和滚动条）可能难以通过鼠标移动操作。如果您遇到这种情况，请尝试提示模型使用键盘快捷键。
对于可重复的任务或 UI 交互，在您的提示中包含成功结果的示例截图和工具调用。
如果您需要模型登录，请在提示中使用 xml 标签（如 <robot_credentials>）提供用户名和密码。在需要登录的应用程序中使用电脑使用功能会增加因提示注入而导致不良结果的风险。在向模型提供登录凭据之前，请查看我们关于缓解提示注入的指南。

如果您反复遇到一组明确的问题，或者预先知道 Claude 需要完成的任务，请使用系统提示为 Claude 提供有关如何成功完成任务的明确提示或指示。

系统提示

当通过 Anthropic API 请求 Anthropic 定义的工具之一时，会生成特定于电脑使用的系统提示。它类似于工具使用系统提示，但以以下内容开始：

您可以访问一组函数，用于回答用户的问题。这包括访问沙盒计算环境。除了调用以下函数外，您目前无法检查文件或与外部资源交互。

与常规工具使用一样，用户提供的 system_prompt 字段仍然受到尊重，并用于构建组合系统提示。

了解 Anthropic 定义的工具

作为测试版，这些工具定义可能会发生变化。

我们提供了一组工具，使 Claude 能够有效地使用计算机。在指定 Anthropic 定义的工具时，不需要也不允许使用 description 和 tool_schema 字段。

Anthropic 定义的工具由用户执行Anthropic 定义的工具由 Anthropic 定义，但您必须明确评估工具的结果并将 tool_results 返回给 Claude。与任何工具一样，模型不会自动执行工具。

我们提供了一组 Anthropic 定义的工具，每个工具都有针对 Claude 4、Claude Sonnet 3.7 和 Claude Sonnet 3.5 优化的版本：

Claude 4 工具

Claude Sonnet 3.7 工具

Claude Sonnet 3.5（新版）工具

type 字段标识工具及其验证参数，name 字段是暴露给模型的工具名称。如果您想提示模型使用这些工具之一，可以通过 name 字段明确引用该工具。name 字段在工具列表中必须是唯一的；您不能在同一个 API 调用中定义与 Anthropic 定义的工具同名的工具。

我们不建议定义与 Anthropic 定义的工具同名的工具。虽然您仍然可以重新定义具有这些名称的工具（只要工具名称在您的 tools 块中是唯一的），但这样做可能会导致模型性能下降。

计算机工具

我们不建议发送分辨率高于 XGA/WXGA 的截图，以避免与图像调整大小相关的问题。依赖 API 中的图像调整大小行为将导致模型准确性降低和性能变慢，比直接自己实现缩放要差。参考代码库演示了如何从更高分辨率缩放到建议的分辨率。

类型

computer_20250124 - 具有高级功能的增强计算机工具，用于 Claude 4
computer_20250124 - 增强计算机工具，在 Claude Sonnet 3.7 中提供额外操作
computer_20241022 - 与 Claude Sonnet 3.5（新版）一起使用的原始计算机工具

参数

display_width_px：必需模型控制的显示器宽度（以像素为单位）。
display_height_px：必需模型控制的显示器高度（以像素为单位）。
display_number：可选要控制的显示器编号（仅与 X11 环境相关）。如果指定，工具定义中将提供显示器编号。

工具描述

我们提供工具描述仅供参考。您不应在 Anthropic 定义的工具调用中指定此内容。

使用鼠标和键盘与计算机交互，并进行截图。
* 这是桌面 GUI 的接口。您无法访问终端或应用程序菜单。您必须点击桌面图标来启动应用程序。
* 某些应用程序可能需要时间来启动或处理操作，因此您可能需要等待并连续截图以查看操作结果。例如，如果您点击 Firefox 但窗口没有打开，请尝试再次截图。
* 屏幕分辨率为 {{ display_width_px }}x{{ display_height_px }}。
* 显示器编号为 {{ display_number }}
* 当您打算移动光标点击图标等元素时，应先查看截图以确定元素的坐标，然后再移动光标。
* 如果您尝试点击程序或链接但即使等待后也未能加载，请尝试调整光标位置，使光标尖端视觉上落在您想点击的元素上。
* 确保用光标尖端点击按钮、链接、图标等元素的中心。除非被要求，否则不要点击框的边缘。

工具输入模式

我们提供输入模式仅供参考。以下是 Claude Sonnet 3.7 可用的增强型 computer_20250124 工具的完整输入模式：

{
    "properties": {
        "action": {
            "description": "要执行的操作。可用的操作有：\n"
            "* `key`：在键盘上按下一个键或键组合。\n"
            "  - 支持 xdotool 的 `key` 语法。\n"
            '  - 示例："a"、"Return"、"alt+Tab"、"ctrl+s"、"Up"、"KP_0"（用于数字键盘 0 键）。\n'
            "* `hold_key`：按住一个或多个键指定的时间（以秒为单位）。支持与 `key` 相同的语法。\n"
            "* `type`：在键盘上输入一串文本。\n"
            "* `cursor_position`：获取光标在屏幕上的当前 (x, y) 像素坐标。\n"
            "* `mouse_move`：将光标移动到屏幕上指定的 (x, y) 像素坐标。\n"
            "* `left_mouse_down`：按下鼠标左键。\n"
            "* `left_mouse_up`：释放鼠标左键。\n"
            "* `left_click`：在屏幕上指定的 (x, y) 像素坐标处点击鼠标左键。您还可以使用 `text` 参数包含在点击时按住的键组合。\n"
            "* `left_click_drag`：从 `start_coordinate` 点击并拖动光标到屏幕上指定的 (x, y) 像素坐标。\n"
            "* `right_click`：在屏幕上指定的 (x, y) 像素坐标处点击鼠标右键。\n"
            "* `middle_click`：在屏幕上指定的 (x, y) 像素坐标处点击鼠标中键。\n"
            "* `double_click`：在屏幕上指定的 (x, y) 像素坐标处双击鼠标左键。\n"
            "* `triple_click`：在屏幕上指定的 (x, y) 像素坐标处三击鼠标左键。\n"
            "* `scroll`：在指定的 (x, y) 像素坐标处，按指定的滚轮点击次数，向指定方向滚动屏幕。不要使用 PageUp/PageDown 来滚动。\n"
            "* `wait`：等待指定的时间（以秒为单位）。\n"
            "* `screenshot`：截取屏幕截图。",
            "enum": [
                "key",
                "hold_key",
                "type",
                "cursor_position",
                "mouse_move",
                "left_mouse_down",
                "left_mouse_up",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "triple_click",
                "scroll",
                "wait",
                "screenshot",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y)：要将鼠标移动到的 x（距左边缘的像素数）和 y（距上边缘的像素数）坐标。仅 `action=mouse_move` 和 `action=left_click_drag` 需要。",
            "type": "array",
        },
        "duration": {
            "description": "按住键的时间。仅 `action=hold_key` 和 `action=wait` 需要。",
            "type": "integer",
        },
        "scroll_amount": {
            "description": "要滚动的"点击"次数。仅 `action=scroll` 需要。",
            "type": "integer",
        },
        "scroll_direction": {
            "description": "滚动屏幕的方向。仅 `action=scroll` 需要。",
            "enum": ["up", "down", "left", "right"],
            "type": "string",
        },
        "start_coordinate": {
            "description": "(x, y)：开始拖动的 x（距左边缘的像素数）和 y（距上边缘的像素数）坐标。仅 `action=left_click_drag` 需要。",
            "type": "array",
        },
        "text": {
            "description": "仅 `action=type`、`action=key` 和 `action=hold_key` 需要。也可用于点击或滚动操作，以在点击或滚动时按住键。",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

以下是与 Claude Sonnet 3.5（新版）一起使用的原始 computer_20241022 工具：

{
    "properties": {
        "action": {
            "description": """要执行的操作。可用的操作有：
                * `key`：在键盘上按下一个键或键组合。
                  - 支持 xdotool 的 `key` 语法。
                  - 示例："a"、"Return"、"alt+Tab"、"ctrl+s"、"Up"、"KP_0"（用于数字键盘 0 键）。
                * `type`：在键盘上输入一串文本。
                * `cursor_position`：获取光标在屏幕上的当前 (x, y) 像素坐标。
                * `mouse_move`：将光标移动到屏幕上指定的 (x, y) 像素坐标。
                * `left_click`：点击鼠标左键。
                * `left_click_drag`：点击并拖动光标到屏幕上指定的 (x, y) 像素坐标。
                * `right_click`：点击鼠标右键。
                * `middle_click`：点击鼠标中键。
                * `double_click`：双击鼠标左键。
                * `screenshot`：截取屏幕截图。""",
            "enum": [
                "key",
                "type",
                "mouse_move",
                "left_click",
                "left_click_drag",
                "right_click",
                "middle_click",
                "double_click",
                "screenshot",
                "cursor_position",
            ],
            "type": "string",
        },
        "coordinate": {
            "description": "(x, y)：要将鼠标移动到的 x（距左边缘的像素数）和 y（距上边缘的像素数）坐标。仅 `action=mouse_move` 和 `action=left_click_drag` 需要。",
            "type": "array",
        },
        "text": {
            "description": "仅 `action=type` 和 `action=key` 需要。",
            "type": "string",
        },
    },
    "required": ["action"],
    "type": "object",
}

文本编辑器工具

类型

text_editor_20250429 - 更新的 Claude 4 文本编辑器，没有 undo_edit 命令
text_editor_20250124 - 与 20241022 版本功能相同，用于 Claude Sonnet 3.7
text_editor_20241022 - 与 Claude Sonnet 3.5（新版）一起使用的原始文本编辑器工具

工具描述

我们提供工具描述仅供参考。您不应在 Anthropic 定义的工具调用中指定此内容。

用于查看、创建和编辑文件的自定义编辑工具
* 状态在命令调用和与用户的讨论之间保持持久
* 如果 `path` 是文件，`view` 显示应用 `cat -n` 的结果。如果 `path` 是目录，`view` 列出最多 2 级深度的非隐藏文件和目录
* 如果指定的 `path` 已作为文件存在，则不能使用 `create` 命令
* 如果 `command` 生成长输出，将被截断并标记为 `<response clipped>`
* `undo_edit` 命令将撤销对 `path` 处文件的最后一次编辑（在 text_editor_20250429 中不可用）

使用 `str_replace` 命令的注意事项：
* `old_str` 参数应与原始文件中的一行或多行连续行完全匹配。注意空格！
* 如果 `old_str` 参数在文件中不是唯一的，则不会执行替换。确保在 `old_str` 中包含足够的上下文使其唯一
* `new_str` 参数应包含应替换 `old_str` 的编辑行

工具输入模式

我们提供输入模式仅供参考。您不应在 Anthropic 定义的工具调用中指定此内容。

{
    "properties": {
        "command": {
            "description": "要运行的命令。允许的选项有：`view`、`create`、`str_replace`、`insert`、`undo_edit`。",
            "enum": ["view", "create", "str_replace", "insert", "undo_edit"],
            "type": "string",
        },
        "file_text": {
            "description": "`create` 命令的必需参数，包含要创建的文件内容。",
            "type": "string",
        },
        "insert_line": {
            "description": "`insert` 命令的必需参数。`new_str` 将在 `path` 的 `insert_line` 行之后插入。",
            "type": "integer",
        },
        "new_str": {
            "description": "`str_replace` 命令的可选参数，包含新字符串（如果未给出，则不会添加字符串）。`insert` 命令的必需参数，包含要插入的字符串。",
            "type": "string",
        },
        "old_str": {
            "description": "`str_replace` 命令的必需参数，包含 `path` 中要替换的字符串。",
            "type": "string",
        },
        "path": {
            "description": "文件或目录的绝对路径，例如 `/repo/file.py` 或 `/repo`。",
            "type": "string",
        },
        "view_range": {
            "description": "当 `path` 指向文件时，`view` 命令的可选参数。如果未提供，则显示完整文件。如果提供，将显示指定行号范围内的文件，例如 [11, 12] 将显示第 11 和 12 行。索引从 1 开始。设置 `[start_line, -1]` 显示从 `start_line` 到文件末尾的所有行。",
            "items": {"type": "integer"},
            "type": "array",
        },
    },
    "required": ["command", "path"],
    "type": "object",
}

Bash 工具

类型

bash_20250124 - 增强的 Claude 4 bash 工具，功能更强大
bash_20250124 - 与 20241022 版本功能相同，用于 Claude Sonnet 3.7
bash_20241022 - 与 Claude Sonnet 3.5（新版）一起使用的原始 bash 工具

工具描述

我们提供工具描述仅供参考。您不应在 Anthropic 定义的工具调用中指定此内容。

在 bash shell 中运行命令
* 调用此工具时，"command" 参数的内容不需要进行 XML 转义。
* 您可以通过 apt 和 pip 访问常见 Linux 和 Python 包的镜像。
* 状态在命令调用和与用户的讨论之间保持持久。
* 要检查文件的特定行范围，例如第 10-25 行，请尝试 'sed -n 10,25p /path/to/the/file'。
* 请避免可能产生大量输出的命令。
* 请在后台运行长时间运行的命令，例如 'sleep 10 &' 或在后台启动服务器。

工具输入模式

我们提供输入模式仅供参考。您不应在 Anthropic 定义的工具调用中指定此内容。

{
    "properties": {
        "command": {
            "description": "要运行的 bash 命令。除非工具正在重新启动，否则为必需。",
            "type": "string",
        },
        "restart": {
            "description": "指定 true 将重新启动此工具。否则，请不要指定此项。",
            "type": "boolean",
        },
    }
}

在 Claude 4 和 Claude Sonnet 3.7 中启用思考功能

Claude Sonnet 3.7 引入了一项新的”思考”功能，允许您查看模型在处理复杂任务时的推理过程。此功能帮助您了解 Claude 如何解决问题，对于调试或教育目的特别有价值。要启用思考功能，请在 API 请求中添加 thinking 参数：

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

budget_tokens 参数指定 Claude 可以用于思考的令牌数量。这将从您的总体 max_tokens 预算中扣除。启用思考功能后，Claude 将在响应中返回其推理过程，这可以帮助您：

了解模型的决策过程
识别潜在问题或误解
从 Claude 的问题解决方法中学习
获得对复杂多步骤操作的更多可见性

以下是思考输出的示例：

[Thinking]
我需要将猫的图片保存到桌面。让我将这个任务分解为步骤：

1. 首先，我将截取屏幕截图，看看桌面上有什么
2. 然后我将寻找网络浏览器来搜索猫的图片
3. 找到合适的图片后，我需要将其保存到桌面

让我先截取屏幕截图，看看有什么可用的...

将电脑使用与其他工具结合

您可以将常规工具使用与 Anthropic 定义的电脑使用工具结合起来。

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "获取指定位置的当前天气",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "城市和州，例如 San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "温度单位，'celsius' 或 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "找到从旧金山到天气更暖和的地方的航班。"
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

构建自定义电脑使用环境

参考实现旨在帮助您开始使用电脑使用功能。它包含了让 Claude 使用计算机所需的所有组件。但是，您可以根据自己的需求构建自己的电脑使用环境。您需要：

适合 Claude 电脑使用的虚拟化或容器化环境
至少一个 Anthropic 定义的电脑使用工具的实现
与 Anthropic API 交互并使用您的工具实现执行 tool_use 结果的代理循环
允许用户输入启动代理循环的 API 或 UI

了解电脑使用的限制

电脑使用功能处于测试阶段。虽然 Claude 的功能处于前沿水平，但开发人员应该了解其限制：

延迟：当前电脑使用的人机交互延迟可能比常规人工指导的计算机操作慢。我们建议专注于速度不重要的用例（例如，后台信息收集、自动软件测试）在受信任的环境中。
计算机视觉准确性和可靠性：Claude 在生成操作时输出特定坐标时可能会出错或产生幻觉。Claude Sonnet 3.7 引入了思考功能，可以帮助您了解模型的推理并识别潜在问题。
工具选择准确性和可靠性：Claude 在生成操作时选择工具可能会出错或产生幻觉，或者采取意外操作来解决问题。此外，在与小众应用程序或同时与多个应用程序交互时，可靠性可能较低。我们建议用户在请求复杂任务时谨慎提示模型。
滚动可靠性：虽然 Claude Sonnet 3.5（新版）在滚动方面有限制，但 Claude Sonnet 3.7 引入了带有方向控制的专用滚动操作，提高了可靠性。模型现在可以通过指定的数量明确地向任何方向（上/下/左/右）滚动。
电子表格交互：在 Claude Sonnet 3.7 中，电子表格交互的鼠标点击通过添加更精确的鼠标控制操作（如 left_mouse_down、left_mouse_up）和新的修饰键支持得到了改进。通过使用这些细粒度控制并将修饰键与点击结合使用，单元格选择可以更可靠。
在社交和通信平台上创建账户和生成内容：虽然 Claude 会访问网站，但我们限制了其创建账户或生成和分享内容或以其他方式在社交媒体网站和平台上进行人类模仿的能力。我们可能会在未来更新此功能。
漏洞：越狱或提示注入等漏洞可能在前沿 AI 系统中持续存在，包括测试版电脑使用 API。在某些情况下，Claude 会遵循内容中的命令，有时甚至与用户的指示相冲突。例如，网页上的 Claude 指令或图像中包含的指令可能会覆盖指令或导致 Claude 出错。我们建议： a. 将电脑使用限制在受信任的环境中，如具有最小权限的虚拟机或容器 b. 避免在没有严格监督的情况下让电脑使用访问敏感账户或数据 c. 在您的应用程序中启用或请求电脑使用功能所需的权限之前，告知最终用户相关风险并获得他们的同意
不适当或非法操作：根据 Anthropic 的服务条款，您不得使用电脑使用功能违反任何法律或我们的可接受使用政策。

始终仔细审查和验证 Claude 的电脑使用操作和日志。在没有人工监督的情况下，不要使用 Claude 执行需要完美精度或敏感用户信息的任务。

定价

有关 Claude 工具使用 API 请求如何定价的详细说明，请参阅工具使用定价文档。

作为工具使用请求的子集，电脑使用请求的定价与任何其他 Claude API 请求相同。我们还自动为模型包含一个特殊的系统提示，启用电脑使用功能。

模型	工具选择	系统提示令牌数
Claude 4 Opus 和 Sonnet	`auto` `any`, `tool`	466 令牌 499 令牌
Claude Sonnet 3.7	`auto` `any`, `tool`	466 令牌 499 令牌
Claude Sonnet 3.5（新版）	`auto` `any`, `tool`	466 令牌 499 令牌

除了基本令牌外，Anthropic 定义的工具还需要以下额外输入令牌：

工具	额外输入令牌
`computer_20250124`（Claude 4）	735 令牌
`computer_20250124`（Claude Sonnet 3.7）	735 令牌
`computer_20241022`（Claude Sonnet 3.5）	683 令牌
`text_editor_20250429`（Claude 4）	700 令牌
`text_editor_20250124`（Claude Sonnet 3.7）	700 令牌
`text_editor_20241022`（Claude Sonnet 3.5）	700 令牌
`bash_20250124`（Claude 4）	245 令牌
`bash_20250124`（Claude Sonnet 3.7）	245 令牌
`bash_20241022`（Claude Sonnet 3.5）	245 令牌

如果您在 Claude 4 或 Claude Sonnet 3.7 中启用思考功能，用于思考的令牌将根据您在思考参数中指定的 budget_tokens 计入您的 max_tokens 预算。

Release Notes

电脑使用参考实现

​电脑使用的工作原理

​计算环境

​如何实现电脑使用

​从我们的参考实现开始

​理解多代理循环

​通过提示优化模型性能

​系统提示

​了解 Anthropic 定义的工具

​在 Claude 4 和 Claude Sonnet 3.7 中启用思考功能

​将电脑使用与其他工具结合

​构建自定义电脑使用环境

​了解电脑使用的限制

​定价

电脑使用的工作原理

计算环境

如何实现电脑使用

从我们的参考实现开始

理解多代理循环

通过提示优化模型性能

系统提示

了解 Anthropic 定义的工具

在 Claude 4 和 Claude Sonnet 3.7 中启用思考功能

将电脑使用与其他工具结合

构建自定义电脑使用环境

了解电脑使用的限制

定价