Claudeがスクリーンショット機能とマウス/キーボード制御を通じてコンピュータ環境と相互作用し、自律的なデスクトップ操作を可能にするコンピュータ使用ツールについて説明します。
モデル | ツールバージョン | ベータフラグ |
---|---|---|
Claude 4モデル | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 v2 (非推奨) | computer_20241022 | computer-use-2024-10-22 |
1. Claudeにコンピュータ使用ツールとユーザープロンプトを提供
2. Claudeがコンピュータ使用ツールの使用を決定
stop_reason
がtool_use
になり、Claudeの意図を示します。3. ツール入力を抽出し、コンピュータでツールを評価し、結果を返す
tool_result
コンテンツブロックを含む新しいuser
メッセージで会話を続けます。4. Claudeはタスクが完了するまでコンピュータ使用ツールを呼び続ける
tool_use
stop_reason
で応答し、ステップ3に戻る必要があります。Claude 4モデル
computer_20250124
を使用する際は、このベータフラグを含めてください:Claude Sonnet 3.7
computer_20250124
を使用する際は、このベータフラグを含めてください:Claude Sonnet 3.5 v2 (非推奨)
computer_20241022
を使用する際は、このベータフラグを含めてください:各ステップの後、スクリーンショットを撮り、正しい結果を達成したかどうかを慎重に評価してください。あなたの思考を明示的に示してください:「ステップXを評価しました...」正しくない場合は、再試行してください。ステップが正しく実行されたことを確認した場合のみ、次のステップに進んでください。
とClaudeにプロンプトできます。<robot_credentials>
のようなxmlタグ内でプロンプトにユーザー名とパスワードを提供してください。ログインが必要なアプリケーション内でコンピュータ使用を使用すると、プロンプトインジェクションの結果として悪い結果のリスクが高まります。モデルにログイン認証情報を提供する前に、プロンプトインジェクションの軽減に関するガイドを確認してください。あなたはユーザーの質問に答えるために使用できる一連の関数にアクセスできます。これには、サンドボックス化されたコンピューティング環境へのアクセスが含まれます。現在、以下の関数を呼び出す以外に、ファイルを検査したり外部リソースと相互作用したりする能力はありません。通常のツール使用と同様に、ユーザー提供の
system_prompt
フィールドは引き続き尊重され、結合されたシステムプロンプトの構築に使用されます。
[x, y]
でクリックcomputer_20250124
)
Claude 4モデルとClaude Sonnet 3.7で利用可能:
アクションの例
パラメータ | 必須 | 説明 |
---|---|---|
type | はい | ツールバージョン(computer_20250124 またはcomputer_20241022 ) |
name | はい | 「computer」である必要があります |
display_width_px | はい | ピクセル単位のディスプレイ幅 |
display_height_px | はい | ピクセル単位のディスプレイ高さ |
display_number | いいえ | X11環境のディスプレイ番号 |
thinking
パラメータを追加します:
budget_tokens
パラメータは、Claudeが思考に使用できるトークン数を指定します。これは全体のmax_tokens
予算から差し引かれます。
思考が有効になると、Claudeは応答の一部として推論プロセスを返し、以下に役立ちます:
tool_use
結果を実行するエージェントループコンピューティング環境の設定
アクションハンドラーの実装
Claudeのツール呼び出しの処理
エージェントループの実装
スクリーンショットキャプチャの失敗
無効な座標
アクション実行の失敗
適切なディスプレイ解像度の使用
適切なスクリーンショット処理の実装
アクション遅延の追加
実行前のアクション検証
デバッグのためのアクションログ
left_mouse_down
、left_mouse_up
、新しい修飾キーサポートなどのより精密なマウス制御アクションの追加により、Claude Sonnet 3.7で改善されました。これらの細かい制御を使用し、修飾キーとクリックを組み合わせることで、セル選択がより信頼できるようになります。Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |