Usando a Ferramenta de Avaliação

Acessando o Recurso de Avaliação

Para começar com a ferramenta de Avaliação:

Abra o Console Anthropic e navegue até o editor de prompts.
Após compor seu prompt, procure pela aba ‘Evaluate’ no topo da tela.

Certifique-se de que seu prompt inclui pelo menos 1-2 variáveis dinâmicas usando a sintaxe de chaves duplas: {{variável}}. Isso é necessário para criar conjuntos de teste de avaliação.

Gerando Prompts

O Console oferece um gerador de prompts integrado alimentado pelo Claude Opus 4.1:

Clique em 'Generate Prompt'

Clicar na ferramenta auxiliar ‘Generate Prompt’ abrirá um modal que permite inserir as informações da sua tarefa.

Descreva sua tarefa

Descreva sua tarefa desejada (por exemplo, “Triagem de solicitações de suporte ao cliente recebidas”) com tanto ou tão pouco detalhe quanto desejar. Quanto mais contexto você incluir, mais Claude pode adaptar seu prompt gerado às suas necessidades específicas.

Gere seu prompt

Clicar no botão laranja ‘Generate Prompt’ na parte inferior fará com que Claude gere um prompt de alta qualidade para você. Você pode então melhorar ainda mais esses prompts usando a tela de Avaliação no Console.

Este recurso facilita a criação de prompts com a sintaxe de variável apropriada para avaliação.

Criando Casos de Teste

Quando você acessa a tela de Avaliação, tem várias opções para criar casos de teste:

Clique no botão ’+ Add Row’ no canto inferior esquerdo para adicionar manualmente um caso.
Use o recurso ‘Generate Test Case’ para que Claude gere automaticamente casos de teste para você.
Importe casos de teste de um arquivo CSV.

Para usar o recurso ‘Generate Test Case’:

Clique em 'Generate Test Case'

Claude gerará casos de teste para você, uma linha por vez para cada vez que você clicar no botão.

Edite a lógica de geração (opcional)

Você também pode editar a lógica de geração de casos de teste clicando na seta suspensa à direita do botão ‘Generate Test Case’, depois em ‘Show generation logic’ no topo da janela Variables que aparece. Você pode ter que clicar em `Generate’ no canto superior direito desta janela para popular a lógica de geração inicial.Editar isso permite que você personalize e ajuste finamente os casos de teste que Claude gera com maior precisão e especificidade.

Aqui está um exemplo de uma tela de Avaliação populada com vários casos de teste:

Se você atualizar o texto do seu prompt original, pode executar novamente toda a suíte de avaliação contra o novo prompt para ver como as mudanças afetam o desempenho em todos os casos de teste.

Dicas para Avaliação Eficaz

Estrutura de Prompt para Avaliação

Para aproveitar ao máximo a ferramenta de Avaliação, estruture seus prompts com formatos claros de entrada e saída. Por exemplo:

Nesta tarefa, você gerará uma história fofa de uma frase que incorpora dois elementos: uma cor e um som.
A cor a incluir na história é:
<color>
{{COLOR}}
</color>
O som a incluir na história é:
<sound>
{{SOUND}}
</sound>
Aqui estão os passos para gerar a história:
1. Pense em um objeto, animal ou cena que é comumente associado com a cor fornecida. Por exemplo, se a cor é "azul", você pode pensar no céu, no oceano ou em um pássaro azul.
2. Imagine uma ação simples, evento ou cena envolvendo o objeto/animal/cena colorido que você identificou e o som fornecido. Por exemplo, se a cor é "azul" e o som é "assobio", você pode imaginar um pássaro azul assobiando uma melodia.
3. Descreva a ação, evento ou cena que você imaginou em uma única frase concisa. Foque em tornar a frase fofa, evocativa e imaginativa. Por exemplo: "Um pássaro azul alegre assobiou uma melodia alegre enquanto voava pelo céu azul."
Por favor, mantenha sua história em apenas uma frase. Procure tornar essa frase o mais encantadora e envolvente possível enquanto incorpora naturalmente a cor e o som dados.
Escreva sua história completa de uma frase dentro de tags <story>.

Esta estrutura facilita variar entradas ({{COLOR}} e {{SOUND}}) e avaliar saídas consistentemente.

Use a ferramenta auxiliar ‘Generate a prompt’ no Console para criar rapidamente prompts com a sintaxe de variável apropriada para avaliação.

Entendendo e comparando resultados

A ferramenta de Avaliação oferece vários recursos para ajudá-lo a refinar seus prompts:

Comparação lado a lado: Compare as saídas de dois ou mais prompts para ver rapidamente o impacto de suas mudanças.
Classificação de qualidade: Classifique a qualidade da resposta em uma escala de 5 pontos para acompanhar melhorias na qualidade da resposta por prompt.
Versionamento de prompt: Crie novas versões do seu prompt e execute novamente a suíte de teste para iterar rapidamente e melhorar resultados.

Ao revisar resultados em casos de teste e comparar diferentes versões de prompt, você pode identificar padrões e fazer ajustes informados ao seu prompt de forma mais eficiente. Comece a avaliar seus prompts hoje para construir aplicações de IA mais robustas com Claude!

Primeiros passos

Modelos e preços

Saiba mais sobre Claude

Capacidades

Ferramentas

Protocolo de Contexto do Modelo (MCP)

Casos de uso

Engenharia de prompts

Testar e avaliar

Fortalecer proteções

Centro legal

Usando a Ferramenta de Avaliação

Acessando o Recurso de Avaliação

Gerando Prompts

Criando Casos de Teste

Dicas para Avaliação Eficaz

Entendendo e comparando resultados

Primeiros passos

Modelos e preços

Saiba mais sobre Claude

Capacidades

Ferramentas

Protocolo de Contexto do Modelo (MCP)

Casos de uso

Engenharia de prompts

Testar e avaliar

Fortalecer proteções

Centro legal

​Acessando o Recurso de Avaliação

​Gerando Prompts

​Criando Casos de Teste

​Dicas para Avaliação Eficaz

​Entendendo e comparando resultados

Acessando o Recurso de Avaliação

Gerando Prompts

Criando Casos de Teste

Dicas para Avaliação Eficaz

Entendendo e comparando resultados