Acessando o Recurso de Avaliação

Para começar com a ferramenta de Avaliação:

  1. Abra o Anthropic Console e navegue até o editor de prompts.
  2. Após compor seu prompt, procure pela aba ‘Avaliar’ no topo da tela.

Certifique-se de que seu prompt inclua pelo menos 1-2 variáveis dinâmicas usando a sintaxe de chaves duplas: {{variable}}. Isso é necessário para criar conjuntos de teste de avaliação.

Gerando Prompts

O Console oferece um gerador de prompts integrado, alimentado pelo Claude 3.5 Sonnet:

1

Clique em 'Gerar Prompt'

Clicar na ferramenta auxiliar ‘Gerar Prompt’ abrirá uma janela modal que permite inserir as informações da sua tarefa.

2

Descreva sua tarefa

Descreva a tarefa desejada (por exemplo, “Fazer triagem de solicitações de suporte ao cliente”) com tanto ou tão pouco detalhe quanto desejar. Quanto mais contexto você incluir, mais o Claude poderá adaptar o prompt gerado às suas necessidades específicas.

3

Gere seu prompt

Clicar no botão laranja ‘Gerar Prompt’ na parte inferior fará com que o Claude gere um prompt de alta qualidade para você. Você pode então melhorar ainda mais esses prompts usando a tela de Avaliação no Console.

Este recurso facilita a criação de prompts com a sintaxe de variável apropriada para avaliação.

Criando Casos de Teste

Quando você acessa a tela de Avaliação, tem várias opções para criar casos de teste:

  1. Clique no botão ’+ Adicionar Linha’ no canto inferior esquerdo para adicionar manualmente um caso.
  2. Use o recurso ‘Gerar Caso de Teste’ para que o Claude gere automaticamente casos de teste para você.
  3. Importe casos de teste de um arquivo CSV.

Para usar o recurso ‘Gerar Caso de Teste’:

1

Clique em 'Gerar Caso de Teste'

O Claude gerará casos de teste para você, uma linha por vez para cada vez que você clicar no botão.

2

Edite a lógica de geração (opcional)

Você também pode editar a lógica de geração de casos de teste clicando na seta suspensa à direita do botão ‘Gerar Caso de Teste’, e depois em ‘Mostrar lógica de geração’ no topo da janela de Variáveis que aparece. Pode ser necessário clicar em ‘Gerar’ no canto superior direito desta janela para preencher a lógica de geração inicial.

Editar isso permite personalizar e ajustar com maior precisão e especificidade os casos de teste que o Claude gera.

Aqui está um exemplo de uma tela de Avaliação preenchida com vários casos de teste:

Se você atualizar o texto do prompt original, pode executar novamente toda a suíte de avaliação com o novo prompt para ver como as mudanças afetam o desempenho em todos os casos de teste.

Dicas para uma Avaliação Eficaz

Use a ferramenta auxiliar ‘Gerar um prompt’ no Console para criar rapidamente prompts com a sintaxe de variável apropriada para avaliação.

Entendendo e comparando resultados

A ferramenta de Avaliação oferece vários recursos para ajudar você a refinar seus prompts:

  1. Comparação lado a lado: Compare as saídas de dois ou mais prompts para ver rapidamente o impacto de suas mudanças.
  2. Classificação de qualidade: Classifique a qualidade da resposta em uma escala de 5 pontos para acompanhar melhorias na qualidade da resposta por prompt.
  3. Versionamento de prompt: Crie novas versões do seu prompt e execute novamente a suíte de testes para iterar e melhorar resultados rapidamente.

Ao revisar resultados em casos de teste e comparar diferentes versões de prompt, você pode identificar padrões e fazer ajustes informados em seu prompt de forma mais eficiente.

Comece a avaliar seus prompts hoje para construir aplicações de IA mais robustas com o Claude!