Uso do computador (beta)
Claude 3.7 Sonnet e Claude 3.5 Sonnet (novo) são capazes de interagir com ferramentas que podem manipular um ambiente de desktop do computador. Claude 3.7 Sonnet introduz ferramentas adicionais e permite que você habilite o pensamento, dando mais insights sobre o processo de raciocínio do modelo.
O uso do computador é um recurso beta. Por favor, esteja ciente de que o uso do computador apresenta riscos únicos que são distintos dos recursos padrão da API ou interfaces de chat. Esses riscos são aumentados ao usar o computador para interagir com a internet. Para minimizar os riscos, considere tomar precauções como:
- Use uma máquina virtual dedicada ou container com privilégios mínimos para prevenir ataques diretos ao sistema ou acidentes.
- Evite dar ao modelo acesso a dados sensíveis, como informações de login de conta, para prevenir roubo de informações.
- Limite o acesso à internet a uma lista permitida de domínios para reduzir a exposição a conteúdo malicioso.
- Peça a um humano para confirmar decisões que possam resultar em consequências significativas no mundo real, bem como quaisquer tarefas que requeiram consentimento afirmativo, como aceitar cookies, executar transações financeiras ou concordar com termos de serviço.
Em algumas circunstâncias, o Claude seguirá comandos encontrados no conteúdo mesmo que isso entre em conflito com as instruções do usuário. Por exemplo, instruções do Claude em páginas web ou contidas em imagens podem substituir instruções ou fazer com que o Claude cometa erros. Sugerimos tomar precauções para isolar o Claude de dados e ações sensíveis para evitar riscos relacionados à injeção de prompt.
Finalmente, por favor, informe os usuários finais sobre os riscos relevantes e obtenha seu consentimento antes de habilitar o uso do computador em seus próprios produtos.
Implementação de referência do uso do computador
Comece rapidamente com nossa implementação de referência do uso do computador que inclui uma interface web, container Docker, implementações de ferramentas de exemplo e um loop de agente.
Nota: A implementação foi atualizada para incluir novas ferramentas para o Claude 3.7 Sonnet. Certifique-se de puxar a versão mais recente do repositório para acessar esses novos recursos.
Por favor, use este formulário para fornecer feedback sobre a qualidade das respostas do modelo, a própria API ou a qualidade da documentação - mal podemos esperar para ouvir de você!
Aqui está um exemplo de como fornecer ferramentas de uso do computador ao Claude usando a API de Mensagens:
Como funciona o uso do computador
1. Forneça ao Claude ferramentas de uso do computador e um prompt do usuário
- Adicione ferramentas de uso do computador definidas pela Anthropic à sua requisição da API.
- Inclua um prompt do usuário que possa requerer essas ferramentas, por exemplo, “Salve uma foto de um gato na minha área de trabalho.”
2. Claude decide usar uma ferramenta
- Claude carrega as definições armazenadas das ferramentas de uso do computador e avalia se alguma ferramenta pode ajudar com a consulta do usuário.
- Se sim, Claude constrói uma requisição de uso de ferramenta formatada adequadamente.
- A resposta da API tem um
stop_reason
detool_use
, sinalizando a intenção do Claude.
3. Extraia a entrada da ferramenta, avalie a ferramenta em um computador e retorne resultados
- Do seu lado, extraia o nome da ferramenta e a entrada da requisição do Claude.
- Use a ferramenta em um container ou Máquina Virtual.
- Continue a conversa com uma nova mensagem
user
contendo um bloco de conteúdotool_result
.
4. Claude continua chamando ferramentas de uso do computador até completar a tarefa
- Claude analisa os resultados da ferramenta para determinar se mais uso de ferramenta é necessário ou se a tarefa foi completada.
- Se Claude decidir que precisa de outra ferramenta, ele responde com outro
stop_reason
tool_use
e você deve retornar ao passo 3. - Caso contrário, ele elabora uma resposta em texto para o usuário.
Nos referimos à repetição dos passos 3 e 4 sem entrada do usuário como o “loop do agente” - ou seja, Claude respondendo com uma requisição de uso de ferramenta e sua aplicação respondendo ao Claude com os resultados da avaliação dessa requisição.
O ambiente de computação
O uso do computador requer um ambiente de computação isolado onde o Claude pode interagir com segurança com aplicativos e a web. Este ambiente inclui:
-
Display virtual: Um servidor de display X11 virtual (usando Xvfb) que renderiza a interface desktop que o Claude verá através de capturas de tela e controlará com ações de mouse/teclado.
-
Ambiente desktop: Uma UI leve com gerenciador de janelas (Mutter) e painel (Tint2) rodando no Linux, que fornece uma interface gráfica consistente para o Claude interagir.
-
Aplicativos: Aplicativos Linux pré-instalados como Firefox, LibreOffice, editores de texto e gerenciadores de arquivos que o Claude pode usar para completar tarefas.
-
Implementações de ferramentas: Código de integração que traduz as requisições abstratas de ferramentas do Claude (como “mover mouse” ou “capturar tela”) em operações reais no ambiente virtual.
-
Loop do agente: Um programa que gerencia a comunicação entre o Claude e o ambiente, enviando as ações do Claude para o ambiente e retornando os resultados (capturas de tela, saídas de comandos) de volta ao Claude.
Quando você usa o uso do computador, o Claude não se conecta diretamente a este ambiente. Em vez disso, sua aplicação:
- Recebe as requisições de uso de ferramenta do Claude
- Traduz elas em ações no seu ambiente de computação
- Captura os resultados (capturas de tela, saídas de comandos, etc.)
- Retorna estes resultados ao Claude
Para segurança e isolamento, a implementação de referência executa tudo isso dentro de um container Docker com mapeamentos de porta apropriados para visualizar e interagir com o ambiente.
Como implementar o uso do computador
Comece com nossa implementação de referência
Nós construímos uma implementação de referência que inclui tudo que você precisa para começar rapidamente com o uso do computador:
- Um ambiente containerizado adequado para uso do computador com o Claude
- Implementações das ferramentas de uso do computador
- Um loop de agente que interage com a API da Anthropic e executa as ferramentas de uso do computador
- Uma interface web para interagir com o container, loop de agente e ferramentas.
Entendendo o loop multi-agente
O núcleo do uso do computador é o “loop do agente” - um ciclo onde o Claude requisita ações de ferramentas, sua aplicação as executa e retorna resultados ao Claude. Aqui está um exemplo simplificado:
O loop continua até que o Claude responda sem requisitar nenhuma ferramenta (conclusão da tarefa) ou o limite máximo de iteração seja atingido. Esta salvaguarda previne potenciais loops infinitos que poderiam resultar em custos inesperados de API.
Para cada versão das ferramentas, você deve usar a flag beta correspondente em sua requisição da API:
Recomendamos experimentar a implementação de referência antes de ler o resto desta documentação.
Otimize o desempenho do modelo com prompting
Aqui estão algumas dicas sobre como obter as melhores saídas de qualidade:
- Especifique tarefas simples e bem definidas e forneça instruções explícitas para cada passo.
- O Claude às vezes assume resultados de suas ações sem verificar explicitamente seus resultados. Para prevenir isso você pode fazer o prompt do Claude com
Após cada passo, tire uma captura de tela e avalie cuidadosamente se você alcançou o resultado correto. Mostre explicitamente seu pensamento: "Eu avaliei o passo X..." Se não estiver correto, tente novamente. Apenas quando você confirmar que um passo foi executado corretamente deve seguir para o próximo.
- Alguns elementos de UI (como dropdowns e barras de rolagem) podem ser complicados para o Claude manipular usando movimentos do mouse. Se você experimentar isso, tente fazer o prompt do modelo para usar atalhos de teclado.
- Para tarefas repetitivas ou interações de UI, inclua capturas de tela de exemplo e chamadas de ferramentas de resultados bem-sucedidos em seu prompt.
- Se você precisar que o modelo faça login, forneça o nome de usuário e senha em seu prompt dentro de tags xml como
<robot_credentials>
. Usar o uso do computador dentro de aplicações que requerem login aumenta o risco de resultados ruins como resultado de injeção de prompt. Por favor, revise nosso guia sobre mitigação de injeções de prompt antes de fornecer credenciais de login ao modelo.
Se você encontrar repetidamente um conjunto claro de problemas ou souber antecipadamente as tarefas que o Claude precisará completar, use o prompt do sistema para fornecer ao Claude dicas explícitas ou instruções sobre como fazer as tarefas com sucesso.
Prompts do sistema
Quando uma das ferramentas definidas pela Anthropic é requisitada via API da Anthropic, um prompt do sistema específico para uso do computador é gerado. É similar ao prompt do sistema de uso de ferramenta mas começa com:
Você tem acesso a um conjunto de funções que pode usar para responder à pergunta do usuário. Isso inclui acesso a um ambiente de computação isolado. Você NÃO tem atualmente a capacidade de inspecionar arquivos ou interagir com recursos externos, exceto invocando as funções abaixo.
Como com o uso regular de ferramentas, o campo system_prompt
fornecido pelo usuário ainda é respeitado e usado na construção do prompt do sistema combinado.
Entenda as ferramentas definidas pela Anthropic
Nós fornecemos um conjunto de ferramentas que permitem que o Claude use computadores efetivamente. Ao especificar uma ferramenta definida pela Anthropic, os campos description
e tool_schema
não são necessários ou permitidos.
Ferramentas definidas pela Anthropic são executadas pelo usuário
Ferramentas definidas pela Anthropic são definidas pela Anthropic mas você deve explicitamente avaliar os resultados da ferramenta e retornar os tool_results
ao Claude. Como com qualquer ferramenta, o modelo não executa automaticamente a ferramenta.
Nós fornecemos um conjunto de ferramentas definidas pela Anthropic, com cada ferramenta tendo versões otimizadas tanto para o Claude 3.5 Sonnet (novo) quanto para o Claude 3.7 Sonnet:
O campo type
identifica a ferramenta e seus parâmetros para fins de validação, o campo name
é o nome da ferramenta exposto ao modelo.
Se você quiser fazer o prompt do modelo para usar uma dessas ferramentas, você pode se referir explicitamente à ferramenta pelo campo name
. O campo name
deve ser único dentro da lista de ferramentas; você não pode definir uma ferramenta com o mesmo nome de uma ferramenta definida pela Anthropic na mesma chamada de API.
Não recomendamos definir ferramentas com os nomes de ferramentas definidas pela Anthropic.
Embora você ainda possa redefinir ferramentas com estes nomes (desde que o nome da ferramenta
seja único em seu bloco tools
), fazer isso pode resultar em desempenho degradado do modelo.
Habilite a capacidade de pensamento no Claude 3.7 Sonnet
O Claude 3.7 Sonnet introduz uma nova capacidade de “pensamento” que permite que você veja o processo de raciocínio do modelo enquanto ele trabalha em tarefas complexas. Este recurso ajuda você a entender como o Claude está abordando um problema e pode ser particularmente valioso para depuração ou propósitos educacionais.
Para habilitar o pensamento, adicione um parâmetro thinking
à sua requisição da API:
O parâmetro budget_tokens
especifica quantos tokens o Claude pode usar para pensar. Isso é subtraído do seu orçamento geral de max_tokens
.
Quando o pensamento está habilitado, o Claude retornará seu processo de raciocínio como parte da resposta, o que pode ajudar você a:
- Entender o processo de tomada de decisão do modelo
- Identificar potenciais problemas ou equívocos
- Aprender com a abordagem do Claude para resolução de problemas
- Obter mais visibilidade em operações complexas de múltiplos passos
Aqui está um exemplo de como a saída do pensamento pode parecer:
Combine uso do computador com outras ferramentas
Você pode combinar uso regular de ferramentas com as ferramentas definidas pela Anthropic para uso do computador.
Construa um ambiente personalizado de uso do computador
A implementação de referência é destinada a ajudar você a começar com o uso do computador. Ela inclui todos os componentes necessários para que o Claude use um computador. No entanto, você pode construir seu próprio ambiente para uso do computador para atender às suas necessidades. Você precisará de:
- Um ambiente virtualizado ou containerizado adequado para uso do computador com o Claude
- Uma implementação de pelo menos uma das ferramentas definidas pela Anthropic para uso do computador
- Um loop de agente que interage com a API da Anthropic e executa os resultados de
tool_use
usando suas implementações de ferramentas - Uma API ou UI que permite entrada do usuário para iniciar o loop de agente
Entenda as limitações do uso do computador
A funcionalidade de uso do computador está em beta. Embora as capacidades do Claude sejam de ponta, os desenvolvedores devem estar cientes de suas limitações:
- Latência: a latência atual do uso do computador para interações humano-IA pode ser muito lenta comparada a ações regulares de computador direcionadas por humanos. Recomendamos focar em casos de uso onde a velocidade não é crítica (por exemplo, coleta de informações em segundo plano, teste automatizado de software) em ambientes confiáveis.
- Precisão e confiabilidade da visão computacional: o Claude pode cometer erros ou alucinar ao gerar coordenadas específicas ao gerar ações. O Claude 3.7 Sonnet introduz a capacidade de pensamento que pode ajudar você a entender o raciocínio do modelo e identificar potenciais problemas.
- Precisão e confiabilidade na seleção de ferramentas: o Claude pode cometer erros ou alucinar ao selecionar ferramentas ao gerar ações ou tomar ações inesperadas para resolver problemas. Além disso, a confiabilidade pode ser menor ao interagir com aplicativos de nicho ou múltiplos aplicativos ao mesmo tempo. Recomendamos que os usuários façam o prompt do modelo cuidadosamente ao solicitar tarefas complexas.
- Confiabilidade da rolagem: Embora o Claude 3.5 Sonnet (novo) tivesse limitações com rolagem, o Claude 3.7 Sonnet introduz ações dedicadas de rolagem com controle de direção que melhora a confiabilidade. O modelo agora pode explicitamente rolar em qualquer direção (cima/baixo/esquerda/direita) por uma quantidade especificada.
- Interação com planilhas: Cliques do mouse para interação com planilhas melhoraram no Claude 3.7 Sonnet com a adição de ações de controle do mouse mais precisas como
left_mouse_down
,left_mouse_up
, e novo suporte a teclas modificadoras. A seleção de células pode ser mais confiável usando estes controles refinados e combinando teclas modificadoras com cliques. - Criação de conta e geração de conteúdo em plataformas sociais e de comunicação: Embora o Claude visite websites, estamos limitando sua capacidade de criar contas ou gerar e compartilhar conteúdo ou de outra forma se envolver em personificação humana em websites e plataformas de mídia social. Podemos atualizar esta capacidade no futuro.
- Vulnerabilidades: Vulnerabilidades como jailbreaking ou injeção de prompt podem persistir em sistemas de IA de fronteira, incluindo a API beta de uso do computador. Em algumas circunstâncias, o Claude seguirá comandos encontrados no conteúdo, às vezes mesmo em conflito com as instruções do usuário. Por exemplo, instruções do Claude em páginas web ou contidas em imagens podem substituir instruções ou fazer com que o Claude cometa erros. Recomendamos: a. Limitar o uso do computador a ambientes confiáveis como máquinas virtuais ou containers com privilégios mínimos b. Evitar dar acesso de uso do computador a contas ou dados sensíveis sem supervisão estrita c. Informar os usuários finais sobre riscos relevantes e obter seu consentimento antes de habilitar ou solicitar permissões necessárias para recursos de uso do computador em suas aplicações
- Ações inadequadas ou ilegais: De acordo com os termos de serviço da Anthropic, você não deve empregar o uso do computador para violar quaisquer leis ou nossa Política de Uso Aceitável.
Sempre revise e verifique cuidadosamente as ações e logs de uso do computador do Claude. Não use o Claude para tarefas que requerem precisão perfeita ou informações sensíveis do usuário sem supervisão humana.
Preços
Veja a documentação de preços de uso de ferramentas para uma explicação detalhada de como as requisições da API de Uso de Ferramentas do Claude são precificadas.
Como um subconjunto de requisições de uso de ferramentas, requisições de uso do computador são precificadas da mesma forma que qualquer outra requisição da API do Claude.
Nós também incluímos automaticamente um prompt do sistema especial para o modelo, que habilita o uso do computador.
Modelo | Escolha de ferramenta | Contagem de tokens do prompt do sistema |
---|---|---|
Claude 3.5 Sonnet (novo) | auto any , tool | 466 tokens 499 tokens |
Claude 3.7 Sonnet | auto any , tool | 466 tokens 499 tokens |
Além dos tokens base, os seguintes tokens de entrada adicionais são necessários para as ferramentas definidas pela Anthropic:
Ferramenta | Tokens de entrada adicionais |
---|---|
computer_20241022 (Claude 3.5 Sonnet) | 683 tokens |
computer_20250124 (Claude 3.7 Sonnet) | 735 tokens |
text_editor_20241022 (Claude 3.5 Sonnet) | 700 tokens |
text_editor_20250124 (Claude 3.7 Sonnet) | 700 tokens |
bash_20241022 (Claude 3.5 Sonnet) | 245 tokens |
bash_20250124 (Claude 3.7 Sonnet) | 245 tokens |
Se você habilitar o pensamento com o Claude 3.7 Sonnet, os tokens usados para pensar serão contados contra seu orçamento de max_tokens
baseado no budget_tokens
que você especificar no parâmetro thinking.
Was this page helpful?