Criar avaliações empíricas fortes
Após definir seus critérios de sucesso, o próximo passo é projetar avaliações para medir o desempenho do LLM em relação a esses critérios. Esta é uma parte vital do ciclo de engenharia de prompt.
Este guia se concentra em como desenvolver seus casos de teste.
Construindo avaliações e casos de teste
Princípios de design de avaliações
- Seja específico para a tarefa: Projete avaliações que espelhem sua distribuição de tarefas do mundo real. Não se esqueça de considerar os casos extremos!
- Automatize quando possível: Estruture perguntas para permitir classificação automatizada (por exemplo, múltipla escolha, correspondência de strings, avaliação por código, avaliação por LLM).
- Priorize volume sobre qualidade: Mais perguntas com avaliação automatizada de sinal ligeiramente menor é melhor do que menos perguntas com avaliações manuais de alta qualidade feitas por humanos.
Exemplos de avaliações
Classificando avaliações
Ao decidir qual método usar para classificar avaliações, escolha o método mais rápido, mais confiável e mais escalável:
-
Classificação baseada em código: Mais rápida e mais confiável, extremamente escalável, mas também carece de nuance para julgamentos mais complexos que requerem menos rigidez baseada em regras.
- Correspondência exata:
output == golden_answer
- Correspondência de string:
key_phrase in output
- Correspondência exata:
-
Classificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.
-
Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamento complexo. Teste primeiro para garantir confiabilidade e depois escale.
Dicas para classificação baseada em LLM
- Tenha rubricas detalhadas e claras: “A resposta deve sempre mencionar ‘Acme Inc.’ na primeira frase. Se não mencionar, a resposta é automaticamente classificada como ‘incorreta.‘”
Um determinado caso de uso, ou mesmo um critério de sucesso específico para esse caso de uso, pode exigir várias rubricas para avaliação holística.
- Empírico ou específico: Por exemplo, instrua o LLM a retornar apenas ‘correto’ ou ‘incorreto’, ou a julgar em uma escala de 1-5. Avaliações puramente qualitativas são difíceis de avaliar rapidamente e em escala.
- Encoraje o raciocínio: Peça ao LLM para pensar primeiro antes de decidir uma pontuação de avaliação, e depois descarte o raciocínio. Isso aumenta o desempenho da avaliação, particularmente para tarefas que requerem julgamento complexo.