Crie avaliações empíricas fortes
Após definir seus critérios de sucesso, o próximo passo é projetar avaliações para medir o desempenho do LLM em relação a esses critérios. Esta é uma parte vital do ciclo de engenharia de prompts.
Este guia se concentra em como desenvolver seus casos de teste.
Construindo avaliações e casos de teste
Princípios de design de avaliação
- Seja específico da tarefa: Projete avaliações que espelhem sua distribuição de tarefas do mundo real. Não se esqueça de levar em consideração casos extremos!
- Automatize quando possível: Estruture as perguntas para permitir a classificação automatizada (por exemplo, múltipla escolha, correspondência de string, classificação por código, classificação por LLM).
- Priorize o volume sobre a qualidade: Mais perguntas com classificação automatizada de sinal um pouco menor é melhor do que menos perguntas com avaliações manuais de alta qualidade.
Exemplos de avaliações
Classificando avaliações
Ao decidir qual método usar para classificar as avaliações, escolha o método mais rápido, confiável e escalável:
-
Classificação baseada em código: Mais rápida e confiável, extremamente escalável, mas também carece de nuances para julgamentos mais complexos que exigem menos rigidez baseada em regras.
- Correspondência exata:
output == golden_answer
- Correspondência de string:
key_phrase in output
- Correspondência exata:
-
Classificação humana: Mais flexível e de alta qualidade, mas lenta e cara. Evite se possível.
-
Classificação baseada em LLM: Rápida e flexível, escalável e adequada para julgamentos complexos. Teste para garantir a confiabilidade primeiro e depois escale.
Dicas para classificação baseada em LLM
- Tenha rubricas detalhadas e claras: “A resposta deve sempre mencionar ‘Acme Inc.’ na primeira frase. Se não o fizer, a resposta é automaticamente classificada como ‘incorreta’.”
Um determinado caso de uso, ou mesmo um critério de sucesso específico para esse caso de uso, pode exigir várias rubricas para uma avaliação holística.
- Empírico ou específico: Por exemplo, instrua o LLM a produzir apenas ‘correto’ ou ‘incorreto’, ou a julgar em uma escala de 1 a 5. Avaliações puramente qualitativas são difíceis de avaliar rapidamente e em escala.
- Incentive o raciocínio: Peça ao LLM para pensar primeiro antes de decidir uma pontuação de avaliação e, em seguida, descarte o raciocínio. Isso aumenta o desempenho da avaliação, particularmente para tarefas que exigem julgamento complexo.