Acessando o Recurso de Avaliação

Para começar com a Ferramenta de Avaliação:

  1. Abra o Console da Anthropic e navegue até o editor de prompts.
  2. Depois de compor seu prompt, procure a aba ‘Evaluate’ na parte superior da tela.

Acessando o Recurso de Avaliação

Certifique-se de que seu prompt inclua pelo menos 1-2 variáveis dinâmicas usando a sintaxe de chaves duplas: {{variável}}. Isso é necessário para criar conjuntos de testes de avaliação.

Gerando Prompts

O Console oferece um gerador de prompts integrado alimentado pelo Claude 3.5 Sonnet:

1

Clique em 'Generate Prompt'

Clicar na ferramenta auxiliar ‘Generate Prompt’ abrirá um modal que permite inserir as informações da sua tarefa.

2

Descreva sua tarefa

Descreva a tarefa desejada (por exemplo, “Triagem de solicitações de suporte ao cliente recebidas”) com tantos ou tão poucos detalhes quanto desejar. Quanto mais contexto você incluir, mais o Claude poderá adaptar seu prompt gerado às suas necessidades específicas.

3

Gere seu prompt

Clicar no botão laranja ‘Generate Prompt’ na parte inferior fará com que o Claude gere um prompt de alta qualidade para você. Você pode então melhorar ainda mais esses prompts usando a tela de Avaliação no Console.

Esse recurso facilita a criação de prompts com a sintaxe de variáveis apropriada para avaliação.

Gerador de Prompts

Criando Casos de Teste

Quando você acessa a tela de Avaliação, tem várias opções para criar casos de teste:

  1. Clique no botão ’+ Add Row’ no canto inferior esquerdo para adicionar manualmente um caso.
  2. Use o recurso ‘Generate Test Case’ para que o Claude gere automaticamente casos de teste para você.
  3. Importe casos de teste de um arquivo CSV.

Para usar o recurso ‘Generate Test Case’:

1

Clique em 'Generate Test Case'

O Claude gerará casos de teste para você, uma linha de cada vez para cada vez que você clicar no botão.

2

Edite a lógica de geração (opcional)

Você também pode editar a lógica de geração de casos de teste clicando na seta suspensa à direita do botão ‘Generate Test Case’ e, em seguida, em ‘Show generation logic’ na parte superior da janela Variáveis que aparece. Talvez seja necessário clicar em ‘Generate’ no canto superior direito desta janela para preencher a lógica de geração inicial.

Editar isso permite que você personalize e ajuste com precisão os casos de teste gerados pelo Claude para maior precisão e especificidade.

Aqui está um exemplo de uma tela de Avaliação preenchida com vários casos de teste:

Tela de Avaliação Preenchida

Se você atualizar o texto do prompt original, poderá executar novamente todo o conjunto de avaliação em relação ao novo prompt para ver como as alterações afetam o desempenho em todos os casos de teste.

Dicas para uma Avaliação Eficaz

Use a ferramenta auxiliar ‘Generate a prompt’ no Console para criar rapidamente prompts com a sintaxe de variáveis apropriada para avaliação.

Entendendo e comparando resultados

A Ferramenta de Avaliação oferece vários recursos para ajudá-lo a refinar seus prompts:

  1. Comparação lado a lado: Compare as saídas de dois ou mais prompts para ver rapidamente o impacto de suas alterações.
  2. Classificação de qualidade: Classifique a qualidade da resposta em uma escala de 5 pontos para acompanhar as melhorias na qualidade da resposta por prompt.
  3. Controle de versão de prompts: Crie novas versões do seu prompt e execute novamente o conjunto de testes para iterar e melhorar os resultados rapidamente.

Ao revisar os resultados em todos os casos de teste e comparar diferentes versões de prompt, você pode identificar padrões e fazer ajustes informados em seu prompt com mais eficiência.

Comece a avaliar seus prompts hoje para criar aplicativos de IA mais robustos com o Claude!