コンピューター使用ツール

Claudeは、コンピューター使用ツールを通じてコンピューター環境と対話できます。このツールは、スクリーンショット機能とマウス/キーボード制御を提供し、自律的なデスクトップ操作を可能にします。

コンピューター使用は現在ベータ版であり、ベータヘッダーが必要です：

"computer-use-2025-01-24" (Claude 4および3.7モデル)
"computer-use-2024-10-22" (Claude Sonnet 3.5)

概要

コンピューター使用は、Claudeがデスクトップ環境と対話できるベータ機能です。このツールは以下を提供します：

スクリーンショット取得: 現在画面に表示されている内容を確認
マウス制御: クリック、ドラッグ、カーソル移動
キーボード入力: テキスト入力とキーボードショートカット
デスクトップ自動化: あらゆるアプリケーションやインターフェースとの対話

コンピューター使用は、より包括的な自動化ワークフローのためにbashやテキストエディターなどの他のツールと組み合わせることができますが、コンピューター使用は特にコンピューター使用ツールのデスクトップ環境を見て制御する機能を指します。

モデル互換性

コンピューター使用は以下のClaudeモデルで利用可能です：

モデル	ツールバージョン	ベータフラグ
Claude 4 Opus & Sonnet	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.7	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.5 (new)	`computer_20241022`	`computer-use-2024-10-22`

Claude 4モデルは、新しいアーキテクチャに最適化された更新されたツールバージョンを使用します。Claude Sonnet 3.7は、モデルの推論プロセスをより深く理解するための思考機能を含む追加機能を導入しています。

セキュリティに関する考慮事項

コンピューター使用は、標準的なAPI機能とは異なる独特のリスクを持つベータ機能です。これらのリスクは、インターネットと対話する際に高まります。リスクを最小限に抑えるために、以下のような予防措置を検討してください：

直接的なシステム攻撃や事故を防ぐために、最小限の権限を持つ専用の仮想マシンまたはコンテナを使用する。
情報盗難を防ぐために、アカウントログイン情報などの機密データへのアクセスをモデルに与えない。
悪意のあるコンテンツへの露出を減らすために、インターネットアクセスを許可されたドメインのリストに制限する。
現実世界で意味のある結果をもたらす可能性のある決定や、クッキーの受け入れ、金融取引の実行、利用規約への同意など、積極的な同意を必要とするタスクについては、人間に確認を求める。

状況によっては、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つけたコマンドに従うことがあります。例えば、ウェブページ上のClaude指示や画像に含まれる指示が、指示を上書きしたり、Claudeにミスを犯させたりする可能性があります。プロンプトインジェクションに関連するリスクを避けるために、Claudeを機密データや行動から隔離する予防措置を取ることをお勧めします。

私たちはモデルをこれらのプロンプトインジェクションに抵抗するように訓練し、追加の防御層を追加しました。私たちのコンピューター使用ツールを使用する場合、プロンプトインジェクションの潜在的なインスタンスにフラグを立てるために、プロンプトに対して分類器を自動的に実行します。これらの分類器がスクリーンショット内の潜在的なプロンプトインジェクションを特定すると、次のアクションに進む前にユーザーの確認を求めるようにモデルを自動的に誘導します。この追加の保護がすべてのユースケース（例えば、人間がループにいないユースケース）に理想的ではないことを認識しているため、オプトアウトしてオフにしたい場合は、お問い合わせください。

プロンプトインジェクションに関連するリスクを避けるために、Claudeを機密データや行動から隔離する予防措置を取ることを引き続きお勧めします。

最後に、自社製品でコンピューター使用を有効にする前に、エンドユーザーに関連するリスクを通知し、同意を得てください。

コンピューター使用リファレンス実装

ウェブインターフェース、Dockerコンテナ、サンプルツール実装、エージェントループを含むコンピューター使用リファレンス実装で素早く開始できます。

注意: 実装は、Claude 4とClaude Sonnet 3.7の両方に対応する新しいツールを含むように更新されています。これらの新機能にアクセスするために、リポジトリの最新バージョンをプルしてください。

モデルレスポンスの品質、API自体、またはドキュメントの品質についてフィードバックを提供するために、このフォームをご利用ください - 皆様からのご意見をお待ちしています！

クイックスタート

コンピューター使用を開始する方法は以下の通りです：

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",  # または他の互換モデル
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "猫の写真をデスクトップに保存してください。"}],
    betas=["computer-use-2025-01-24"]
)
print(response)

ベータヘッダー要件:

Claude 4とSonnet 3.7: コンピューター使用ツールにのみベータヘッダーが必要
Claude Sonnet 3.5: コンピューター、bash、テキストエディターツールにベータヘッダーが必要

上記の例では3つのツールすべてを一緒に使用しており、コンピューター使用ツールが含まれているため、どのClaudeモデルでもベータヘッダーが必要です。

コンピューター使用の仕組み

1. Claudeにコンピューター使用ツールとユーザープロンプトを提供

コンピューター使用ツール（およびオプションで他のツール）をAPIリクエストに追加します。
デスクトップ操作が必要なユーザープロンプトを含めます。例：「猫の写真をデスクトップに保存してください。」

2. Claudeがコンピューター使用ツールの使用を決定

Claudeは、コンピューター使用ツールがユーザーのクエリに役立つかどうかを評価します。
はいの場合、Claudeは適切にフォーマットされたツール使用リクエストを構築します。
APIレスポンスのstop_reasonがtool_useになり、Claudeの意図を示します。

3. ツール入力を抽出し、コンピューター上でツールを評価し、結果を返す

あなたの側で、Claudeのリクエストからツール名と入力を抽出します。
コンテナまたは仮想マシン上でツールを使用します。
tool_resultコンテンツブロックを含む新しいuserメッセージで会話を続けます。

4. Claudeはタスクが完了するまでコンピューター使用ツールを呼び出し続ける

Claudeはツール結果を分析して、さらなるツール使用が必要かタスクが完了したかを判断します。
Claudeが別のツールが必要だと判断した場合、別のtool_use stop_reasonで応答し、ステップ3に戻る必要があります。
そうでなければ、ユーザーへのテキスト応答を作成します。

ユーザー入力なしでのステップ3と4の繰り返しを「エージェントループ」と呼びます - つまり、Claudeがツール使用リクエストで応答し、あなたのアプリケーションがそのリクエストを評価した結果でClaudeに応答することです。

コンピューティング環境

コンピューター使用には、Claudeがアプリケーションやウェブと安全に対話できるサンドボックス化されたコンピューティング環境が必要です。この環境には以下が含まれます：

仮想ディスプレイ: Claudeがスクリーンショットを通じて見て、マウス/キーボードアクションで制御するデスクトップインターフェースをレンダリングする仮想X11ディスプレイサーバー（Xvfbを使用）。
デスクトップ環境: Linux上で動作するウィンドウマネージャー（Mutter）とパネル（Tint2）を備えた軽量UI。Claudeが対話するための一貫したグラフィカルインターフェースを提供します。
アプリケーション: Firefox、LibreOffice、テキストエディター、ファイルマネージャーなど、Claudeがタスクを完了するために使用できる事前インストールされたLinuxアプリケーション。
ツール実装: Claudeの抽象的なツールリクエスト（「マウス移動」や「スクリーンショット取得」など）を仮想環境での実際の操作に変換する統合コード。
エージェントループ: Claudeと環境間の通信を処理し、Claudeのアクションを環境に送信し、結果（スクリーンショット、コマンド出力など）をClaudeに返すプログラム。

コンピューター使用を使用する際、Claudeはこの環境に直接接続しません。代わりに、あなたのアプリケーションが：

Claudeのツール使用リクエストを受信
それらをコンピューティング環境でのアクションに変換
結果（スクリーンショット、コマンド出力など）を取得
これらの結果をClaudeに返す

セキュリティと隔離のため、リファレンス実装では、環境の表示と対話のための適切なポートマッピングを持つDockerコンテナ内ですべてを実行します。

コンピューター使用の実装方法

リファレンス実装から始める

コンピューター使用を素早く開始するために必要なすべてを含むリファレンス実装を構築しました：

Claudeでのコンピューター使用に適したコンテナ化された環境
コンピューター使用ツールの実装
Anthropic APIと対話し、コンピューター使用ツールを実行するエージェントループ
コンテナ、エージェントループ、ツールと対話するためのウェブインターフェース。

マルチエージェントループの理解

コンピューター使用の核心は「エージェントループ」です - Claudeがツールアクションをリクエストし、あなたのアプリケーションがそれらを実行し、結果をClaudeに返すサイクルです。以下は簡略化された例です：

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # 無限ループを防ぐための反復制限を追加
):
    """
    Claude コンピューター使用インタラクションのためのシンプルなエージェントループ。

    この関数は以下の間のやり取りを処理します：
    1. ユーザーメッセージをClaudeに送信
    2. Claudeがツールの使用をリクエスト
    3. あなたのアプリがそれらのツールを実行
    4. ツール結果をClaudeに送信
    """
    # ツールとAPIパラメータを設定
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # ツールを設定 - これらは他の場所で既に初期化されているはずです
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # メインエージェントループ（暴走APIコストを防ぐための反復制限付き）
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # オプションの思考パラメータを設定（Claude Sonnet 3.7用）
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Claude APIを呼び出し
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Claudeの応答を会話履歴に追加
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Claudeがツールを使用したかチェック
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # 実際のアプリでは、ここでツールを実行します
                # 例：result = run_tool(block.name, block.input)
                result = {"result": "ツールが正常に実行されました"}

                # Claude用に結果をフォーマット
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # ツールが使用されなかった場合、Claudeは完了 - 最終メッセージを返す
        if not tool_results:
            return messages

        # Claudeとの次の反復のためにツール結果をメッセージに追加
        messages.append({"role": "user", "content": tool_results})

ループは、Claudeがツールをリクエストせずに応答する（タスク完了）か、最大反復制限に達するまで続きます。この安全装置は、予期しないAPIコストを引き起こす可能性のある無限ループを防ぎます。

コンピューター使用ツールを使用する際は、モデルバージョンに適切なベータフラグを含める必要があります：

Claude 4モデル

Claude Sonnet 3.7

Claude Sonnet 3.5 (new)

注意：Claude 4とSonnet 3.7では、ベータフラグはコンピューター使用ツールにのみ必要です。Claude Sonnet 3.5では、コンピューター、bash、テキストエディターツールにベータフラグが必要です。

このドキュメントの残りを読む前に、リファレンス実装を試すことをお勧めします。

プロンプトでモデルパフォーマンスを最適化

最高品質の出力を得るためのヒントをいくつか紹介します：

シンプルで明確に定義されたタスクを指定し、各ステップに対して明示的な指示を提供する。
Claudeは時々、結果を明示的にチェックせずにアクションの結果を仮定することがあります。これを防ぐために、各ステップの後、スクリーンショットを撮り、正しい結果を達成したかどうかを慎重に評価してください。あなたの思考を明示的に示してください：「ステップXを評価しました...」正しくない場合は、再試行してください。ステップが正しく実行されたことを確認した場合のみ、次のステップに進んでください。とClaudeにプロンプトできます。
一部のUI要素（ドロップダウンやスクロールバーなど）は、マウス移動を使用してClaudeが操作するのが難しい場合があります。これを経験した場合は、キーボードショートカットを使用するようにモデルにプロンプトしてみてください。
繰り返し可能なタスクやUI操作については、プロンプトに成功した結果のサンプルスクリーンショットとツール呼び出しを含めてください。
モデルにログインが必要な場合は、<robot_credentials>のようなxmlタグ内でプロンプトにユーザー名とパスワードを提供してください。ログインが必要なアプリケーション内でコンピューター使用を使用すると、プロンプトインジェクションの結果として悪い結果のリスクが高まります。モデルにログイン認証情報を提供する前に、プロンプトインジェクションの軽減に関するガイドを確認してください。

明確な問題のセットに繰り返し遭遇したり、Claudeが完了する必要があるタスクを事前に知っている場合は、システムプロンプトを使用して、タスクを成功させる方法についてClaudeに明示的なヒントや指示を提供してください。

システムプロンプト

Anthropic定義のツールの1つがAnthropic API経由でリクエストされると、コンピューター使用固有のシステムプロンプトが生成されます。これはツール使用システムプロンプトに似ていますが、以下で始まります：

あなたは、ユーザーの質問に答えるために使用できる一連の関数にアクセスできます。これには、サンドボックス化されたコンピューティング環境へのアクセスが含まれます。現在、以下の関数を呼び出すことを除いて、ファイルを検査したり外部リソースと対話したりする能力はありません。

通常のツール使用と同様に、ユーザー提供のsystem_promptフィールドは引き続き尊重され、結合されたシステムプロンプトの構築に使用されます。

利用可能なアクション

コンピューター使用ツールは以下のアクションをサポートします：

基本アクション（すべてのバージョン）

screenshot - 現在のディスプレイをキャプチャ
left_click - 座標[x, y]でクリック
type - テキスト文字列を入力
key - キーまたはキーの組み合わせを押す（例：“ctrl+s”）
mouse_move - カーソルを座標に移動

拡張アクション（computer_20250124） Claude 4とClaude Sonnet 3.7で利用可能：

scroll - 量制御付きで任意の方向にスクロール
left_click_drag - 座標間でクリックアンドドラッグ
right_click、middle_click - 追加のマウスボタン
double_click、triple_click - 複数クリック
left_mouse_down、left_mouse_up - 細かいクリック制御
hold_key - 他のアクションを実行しながらキーを保持
wait - アクション間で一時停止

アクションの例

// スクリーンショットを撮る
{
  "action": "screenshot"
}

// 位置でクリック
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// テキストを入力
{
  "action": "type",
  "text": "Hello, world!"
}

// 下にスクロール（Claude 4/3.7）
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

ツールパラメータ

パラメータ	必須	説明
`type`	はい	ツールバージョン（`computer_20250124`または`computer_20241022`）
`name`	はい	”computer”である必要があります
`display_width_px`	はい	ピクセル単位のディスプレイ幅
`display_height_px`	はい	ピクセル単位のディスプレイ高さ
`display_number`	いいえ	X11環境のディスプレイ番号

最高のパフォーマンスを得るために、ディスプレイ解像度を1280x800（WXGA）以下に保ってください。より高い解像度は、画像リサイズにより精度の問題を引き起こす可能性があります。

重要: コンピューター使用ツールは、あなたのアプリケーションによって明示的に実行される必要があります - Claudeは直接実行できません。Claudeのリクエストに基づいて、スクリーンショットキャプチャ、マウス移動、キーボード入力、その他のアクションを実装する責任があります。

Claude 4とClaude Sonnet 3.7で思考機能を有効にする

Claude Sonnet 3.7は、複雑なタスクを処理する際にモデルの推論プロセスを見ることができる新しい「思考」機能を導入しました。この機能は、Claudeが問題にどのようにアプローチしているかを理解するのに役立ち、デバッグや教育目的で特に価値があります。

思考を有効にするには、APIリクエストにthinkingパラメータを追加します：

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

budget_tokensパラメータは、Claudeが思考に使用できるトークン数を指定します。これは全体のmax_tokens予算から差し引かれます。

思考が有効になると、Claudeは推論プロセスを応答の一部として返し、以下に役立ちます：

モデルの意思決定プロセスを理解
潜在的な問題や誤解を特定
Claudeの問題解決アプローチから学習
複雑な多段階操作により多くの可視性を得る

思考出力の例は以下のようになります：

[思考]
猫の写真をデスクトップに保存する必要があります。これを段階に分けてみましょう：

1. まず、スクリーンショットを撮ってデスクトップに何があるかを確認します
2. 次に、猫の画像を検索するためのウェブブラウザを探します
3. 適切な画像を見つけた後、デスクトップに保存する必要があります

スクリーンショットを撮って何が利用可能かを確認することから始めましょう...

他のツールでコンピューター使用を拡張

コンピューター使用ツールは他のツールと組み合わせて、より強力な自動化ワークフローを作成できます。これは以下が必要な場合に特に有用です：

システムコマンドを実行（bashツール）
設定ファイルやスクリプトを編集（テキストエディターツール）
カスタムAPIやサービスと統合（カスタムツール）

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "指定された場所の現在の天気を取得",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "都市と州、例：San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "温度の単位、'celsius'または'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "サンフランシスコから暖かい天気の場所への航空券を探してください。"
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

カスタムコンピューター使用環境を構築

リファレンス実装は、コンピューター使用を開始するのに役立つように作られています。Claudeがコンピューターを使用するために必要なすべてのコンポーネントが含まれています。ただし、ニーズに合わせて独自のコンピューター使用環境を構築できます。以下が必要です：

Claudeでのコンピューター使用に適した仮想化またはコンテナ化された環境
Anthropic定義のコンピューター使用ツールの少なくとも1つの実装
Anthropic APIと対話し、ツール実装を使用してtool_use結果を実行するエージェントループ
エージェントループを開始するためのユーザー入力を許可するAPIまたはUI

コンピューター使用ツールを実装

コンピューター使用ツールは、スキーマレスツールとして実装されます。このツールを使用する際、他のツールのように入力スキーマを提供する必要はありません。スキーマはClaudeのモデルに組み込まれており、変更できません。

コンピューティング環境を設定

Claudeが対話する仮想ディスプレイを作成するか、既存のディスプレイに接続します。これは通常、Xvfb（X Virtual Framebuffer）または類似の技術の設定を含みます。

アクションハンドラーを実装

Claudeがリクエストする可能性のある各アクションタイプを処理する関数を作成します：

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... 他のアクションを処理

Claudeのツール呼び出しを処理

Claudeの応答からツール呼び出しを抽出して実行します：

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # 結果をClaudeに返す
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

エージェントループを実装

Claudeがタスクを完了するまで続くループを作成します：

while True:
    response = client.beta.messages.create(...)
    
    # Claudeがツールを使用したかチェック
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # ツール使用なし、タスク完了
        break
        
    # ツール結果で会話を続ける
    messages.append({"role": "user", "content": tool_results})

エラーを処理

コンピューター使用ツールを実装する際、さまざまなエラーが発生する可能性があります。以下はそれらの処理方法です：

スクリーンショットキャプチャの失敗

スクリーンショットキャプチャが失敗した場合、適切なエラーメッセージを返します：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：スクリーンショットのキャプチャに失敗しました。ディスプレイがロックされているか利用できない可能性があります。",
      "is_error": true
    }
  ]
}

無効な座標

Claudeがディスプレイ境界外の座標を提供した場合：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：座標(1200, 900)はディスプレイ境界(1024x768)外です。",
      "is_error": true
    }
  ]
}

アクション実行の失敗

アクションの実行が失敗した場合：

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "エラー：クリックアクションの実行に失敗しました。アプリケーションが応答していない可能性があります。",
      "is_error": true
    }
  ]
}

実装のベストプラクティスに従う

適切なディスプレイ解像度を使用

適切なスクリーンショット処理を実装

アクション遅延を追加

一部のアプリケーションはアクションに応答する時間が必要です：

def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # UIの更新を許可

実行前にアクションを検証

リクエストされたアクションが安全で有効であることを確認します：

def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "座標が境界外です"
    return True, None

デバッグのためにアクションをログ

トラブルシューティングのためにすべてのアクションのログを保持します：

import logging

def log_action(action_type, params, result):
    logging.info(f"アクション：{action_type}、パラメータ：{params}、結果：{result}")

コンピューター使用の制限を理解

コンピューター使用機能はベータ版です。Claudeの機能は最先端ですが、開発者はその制限を認識する必要があります：

レイテンシ: 現在のコンピューター使用レイテンシは、人間とAIの相互作用において、通常の人間主導のコンピューターアクションと比較して遅すぎる可能性があります。信頼できる環境でスピードが重要でないユースケース（例：バックグラウンド情報収集、自動化されたソフトウェアテスト）に焦点を当てることをお勧めします。
コンピュータービジョンの精度と信頼性: Claudeはアクションを生成する際に特定の座標を出力する際にミスをしたり幻覚を起こしたりする可能性があります。Claude Sonnet 3.7は、モデルの推論を理解し、潜在的な問題を特定するのに役立つ思考機能を導入しています。
ツール選択の精度と信頼性: Claudeはアクションを生成する際にツールを選択する際にミスをしたり幻覚を起こしたり、問題を解決するために予期しないアクションを取ったりする可能性があります。さらに、ニッチなアプリケーションや複数のアプリケーションを同時に操作する際に信頼性が低下する可能性があります。複雑なタスクをリクエストする際は、ユーザーがモデルを慎重にプロンプトすることをお勧めします。
スクロールの信頼性: Claude Sonnet 3.5（新）にはスクロールの制限がありましたが、Claude Sonnet 3.7は方向制御付きの専用スクロールアクションを導入し、信頼性を向上させています。モデルは指定された量だけ任意の方向（上/下/左/右）に明示的にスクロールできるようになりました。
スプレッドシート操作: スプレッドシート操作のためのマウスクリックは、left_mouse_down、left_mouse_up、新しい修飾キーサポートなど、より精密なマウス制御アクションの追加により、Claude Sonnet 3.7で改善されました。これらの細かい制御を使用し、修飾キーとクリックを組み合わせることで、セル選択がより信頼できるようになります。
ソーシャルおよびコミュニケーションプラットフォームでのアカウント作成とコンテンツ生成: Claudeはウェブサイトを訪問しますが、ソーシャルメディアウェブサイトやプラットフォーム全体でアカウントを作成したり、コンテンツを生成・共有したり、その他の人間のなりすましに従事したりする能力を制限しています。将来的にこの機能を更新する可能性があります。
脆弱性: ジェイルブレイクやプロンプトインジェクションなどの脆弱性は、ベータコンピューター使用APIを含むフロンティアAIシステム全体で持続する可能性があります。状況によっては、Claudeはコンテンツ内で見つけたコマンドに従い、時にはユーザーの指示と矛盾することもあります。例えば、ウェブページ上のClaude指示や画像に含まれる指示が、指示を上書きしたり、Claudeにミスを犯させたりする可能性があります。以下をお勧めします： a. 最小限の権限を持つ仮想マシンやコンテナなどの信頼できる環境にコンピューター使用を制限する b. 厳格な監視なしに機密アカウントやデータへのコンピューター使用アクセスを与えない c. アプリケーションでコンピューター使用機能を有効にしたり、必要な権限をリクエストしたりする前に、エンドユーザーに関連するリスクを通知し、同意を得る
不適切または違法な行動: Anthropicの利用規約に従い、法律や当社の利用規約に違反するためにコンピューター使用を使用してはいけません。

Claudeのコンピューター使用アクションとログを常に慎重に確認・検証してください。人間の監視なしに完璧な精度や機密ユーザー情報を必要とするタスクにClaudeを使用しないでください。

価格

Computer use follows the standard tool use pricing. When using the computer use tool:

System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt

Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4 / Sonnet 3.7	735 tokens
Claude Sonnet 3.5 (deprecated)	683 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

次のステップ

リファレンス実装

完全なDockerベースの実装で素早く開始

ツールドキュメント

ツール使用とカスタムツールの作成について詳しく学ぶ

コード実行ツールテキストエディタツール

On this page

概要
モデル互換性
セキュリティに関する考慮事項
クイックスタート
コンピューター使用の仕組み
コンピューティング環境
コンピューター使用の実装方法
リファレンス実装から始める
マルチエージェントループの理解
プロンプトでモデルパフォーマンスを最適化
システムプロンプト
利用可能なアクション
ツールパラメータ
Claude 4とClaude Sonnet 3.7で思考機能を有効にする
他のツールでコンピューター使用を拡張
カスタムコンピューター使用環境を構築
コンピューター使用ツールを実装
エラーを処理
実装のベストプラクティスに従う
コンピューター使用の制限を理解
価格
次のステップ

はじめの手順

モデルと料金

Claudeについて学ぶ

機能

ツール

Model Context Protocol (MCP)

使用事例

プロンプトエンジニアリング

テスト・評価

ガードレールを強化

リーガルセンター

コンピューター使用ツール

概要

モデル互換性

セキュリティに関する考慮事項

コンピューター使用リファレンス実装

クイックスタート

コンピューター使用の仕組み

コンピューティング環境

コンピューター使用の実装方法

リファレンス実装から始める

マルチエージェントループの理解

プロンプトでモデルパフォーマンスを最適化

システムプロンプト

利用可能なアクション

ツールパラメータ

Claude 4とClaude Sonnet 3.7で思考機能を有効にする

他のツールでコンピューター使用を拡張

カスタムコンピューター使用環境を構築

コンピューター使用ツールを実装

エラーを処理

実装のベストプラクティスに従う

コンピューター使用の制限を理解

価格

次のステップ

リファレンス実装

ツールドキュメント

はじめの手順

モデルと料金

Claudeについて学ぶ

機能

ツール

Model Context Protocol (MCP)

使用事例

プロンプトエンジニアリング

テスト・評価

ガードレールを強化

リーガルセンター

​概要

​モデル互換性

​セキュリティに関する考慮事項

コンピューター使用リファレンス実装

​クイックスタート

​コンピューター使用の仕組み

​コンピューティング環境

​コンピューター使用の実装方法

​リファレンス実装から始める

​マルチエージェントループの理解

​プロンプトでモデルパフォーマンスを最適化

​システムプロンプト

​利用可能なアクション

​ツールパラメータ

​Claude 4とClaude Sonnet 3.7で思考機能を有効にする

​他のツールでコンピューター使用を拡張

​カスタムコンピューター使用環境を構築

​コンピューター使用ツールを実装

​エラーを処理

​実装のベストプラクティスに従う

​コンピューター使用の制限を理解

​価格

​次のステップ

リファレンス実装

ツールドキュメント

概要

モデル互換性

セキュリティに関する考慮事項

クイックスタート

コンピューター使用の仕組み

コンピューティング環境

コンピューター使用の実装方法

リファレンス実装から始める

マルチエージェントループの理解

プロンプトでモデルパフォーマンスを最適化

システムプロンプト

利用可能なアクション

ツールパラメータ

Claude 4とClaude Sonnet 3.7で思考機能を有効にする

他のツールでコンピューター使用を拡張

カスタムコンピューター使用環境を構築

コンピューター使用ツールを実装

エラーを処理

実装のベストプラクティスに従う

コンピューター使用の制限を理解

価格

次のステップ