Usando a Ferramenta de Avaliação
O Anthropic Console possui uma ferramenta de Avaliação que permite testar seus prompts em vários cenários.
Acessando o Recurso de Avaliação
Para começar com a ferramenta de Avaliação:
- Abra o Anthropic Console e navegue até o editor de prompts.
- Depois de compor seu prompt, procure pela aba ‘Evaluate’ (Avaliar) na parte superior da tela.
Certifique-se de que seu prompt inclua pelo menos 1-2 variáveis dinâmicas usando a sintaxe de chaves duplas: {{variable}}. Isso é necessário para criar conjuntos de teste de avaliação.
Gerando Prompts
O Console oferece um gerador de prompts integrado, alimentado pelo Claude Opus 4:
Clique em 'Generate Prompt'
Clicar na ferramenta auxiliar ‘Generate Prompt’ (Gerar Prompt) abrirá um modal que permite inserir as informações da sua tarefa.
Descreva sua tarefa
Descreva a tarefa desejada (por exemplo, “Triagem de solicitações de suporte ao cliente recebidas”) com tanto ou tão pouco detalhe quanto desejar. Quanto mais contexto você incluir, mais o Claude poderá adaptar o prompt gerado às suas necessidades específicas.
Gere seu prompt
Clicar no botão laranja ‘Generate Prompt’ (Gerar Prompt) na parte inferior fará com que o Claude gere um prompt de alta qualidade para você. Você pode então melhorar ainda mais esses prompts usando a tela de Avaliação no Console.
Este recurso facilita a criação de prompts com a sintaxe de variáveis apropriada para avaliação.
Criando Casos de Teste
Quando você acessa a tela de Avaliação, tem várias opções para criar casos de teste:
- Clique no botão ’+ Add Row’ (+ Adicionar Linha) no canto inferior esquerdo para adicionar manualmente um caso.
- Use o recurso ‘Generate Test Case’ (Gerar Caso de Teste) para que o Claude gere automaticamente casos de teste para você.
- Importe casos de teste de um arquivo CSV.
Para usar o recurso ‘Generate Test Case’ (Gerar Caso de Teste):
Clique em 'Generate Test Case'
O Claude gerará casos de teste para você, uma linha por vez, cada vez que você clicar no botão.
Edite a lógica de geração (opcional)
Você também pode editar a lógica de geração de casos de teste clicando na seta suspensa à direita do botão ‘Generate Test Case’, e depois em ‘Show generation logic’ (Mostrar lógica de geração) na parte superior da janela de Variáveis que aparece. Talvez seja necessário clicar em `Generate’ (Gerar) no canto superior direito desta janela para preencher a lógica de geração inicial.
Editar isso permite personalizar e ajustar os casos de teste que o Claude gera com maior precisão e especificidade.
Aqui está um exemplo de uma tela de Avaliação preenchida com vários casos de teste:
Se você atualizar o texto do seu prompt original, poderá executar novamente todo o conjunto de avaliação com o novo prompt para ver como as alterações afetam o desempenho em todos os casos de teste.
Dicas para Avaliação Eficaz
Use a ferramenta auxiliar ‘Generate a prompt’ (Gerar um prompt) no Console para criar rapidamente prompts com a sintaxe de variáveis apropriada para avaliação.
Entendendo e comparando resultados
A ferramenta de Avaliação oferece vários recursos para ajudar você a refinar seus prompts:
- Comparação lado a lado: Compare as saídas de dois ou mais prompts para ver rapidamente o impacto de suas alterações.
- Classificação de qualidade: Classifique a qualidade da resposta em uma escala de 5 pontos para acompanhar melhorias na qualidade da resposta por prompt.
- Versionamento de prompts: Crie novas versões do seu prompt e execute novamente o conjunto de testes para iterar e melhorar os resultados rapidamente.
Ao revisar os resultados em todos os casos de teste e comparar diferentes versões de prompts, você pode identificar padrões e fazer ajustes informados ao seu prompt de forma mais eficiente.
Comece a avaliar seus prompts hoje para construir aplicações de IA mais robustas com o Claude!