Após definir seus critérios de sucesso, o próximo passo é projetar avaliações para medir o desempenho do LLM em relação a esses critérios. Esta é uma parte vital do ciclo de engenharia de prompts.

Este guia se concentra em como desenvolver seus casos de teste.

Construindo avaliações e casos de teste

Princípios de design de avaliação

  1. Seja específico da tarefa: Projete avaliações que espelhem sua distribuição de tarefas do mundo real. Não se esqueça de levar em consideração casos extremos!
  2. Automatize quando possível: Estruture as perguntas para permitir a classificação automatizada (por exemplo, múltipla escolha, correspondência de string, classificação por código, classificação por LLM).
  3. Priorize o volume sobre a qualidade: Mais perguntas com classificação automatizada de sinal um pouco menor é melhor do que menos perguntas com avaliações manuais de alta qualidade.

Exemplos de avaliações

Escrever centenas de casos de teste pode ser difícil de fazer manualmente! Peça ajuda ao Claude para gerar mais a partir de um conjunto básico de exemplos de casos de teste.
Se você não sabe quais métodos de avaliação podem ser úteis para avaliar seus critérios de sucesso, você também pode fazer um brainstorm com o Claude!

Classificando avaliações

Ao decidir qual método usar para classificar as avaliações, escolha o método mais rápido, confiável e escalável:

  1. Classificação baseada em código: Mais rápida e confiável, extremamente escalável, mas também carece de nuances para julgamentos mais complexos que exigem menos rigidez baseada em regras.

    • Correspondência exata: output == golden_answer
    • Correspondência de string: key_phrase in output
  2. Classificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.

  3. Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamentos complexos. Teste para garantir a confiabilidade primeiro e depois escale.

Dicas para classificação baseada em LLM

  • Tenha rubricas detalhadas e claras: “A resposta deve sempre mencionar ‘Acme Inc.’ na primeira frase. Se não o fizer, a resposta é automaticamente classificada como ‘incorreta’.”
    Um determinado caso de uso, ou mesmo um critério de sucesso específico para esse caso de uso, pode exigir várias rubricas para uma avaliação holística.
  • Empírico ou específico: Por exemplo, instrua o LLM a produzir apenas ‘correto’ ou ‘incorreto’, ou a julgar em uma escala de 1 a 5. Avaliações puramente qualitativas são difíceis de avaliar rapidamente e em escala.
  • Incentive o raciocínio: Peça ao LLM para pensar primeiro antes de decidir uma pontuação de avaliação e, em seguida, descarte o raciocínio. Isso aumenta o desempenho da avaliação, particularmente para tarefas que exigem julgamento complexo.

Próximos passos