Dopo aver definito i criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni degli LLM rispetto a tali criteri. Questa è una parte vitale del ciclo di prompt engineering.

Questa guida si concentra su come sviluppare i casi di test.

Costruire valutazioni e casi di test

Principi di progettazione delle valutazioni

  1. Essere specifici per il task: Progetta valutazioni che rispecchino la distribuzione dei task del mondo reale. Non dimenticare di considerare i casi limite!
  2. Automatizzare quando possibile: Struttura le domande per consentire la valutazione automatica (ad es. scelta multipla, corrispondenza di stringhe, valutazione basata su codice, valutazione basata su LLM).
  3. Dare priorità al volume rispetto alla qualità: È meglio avere più domande con una valutazione automatica leggermente meno accurata che meno domande con valutazioni manuali di alta qualità.

Esempi di valutazioni

Scrivere centinaia di casi di test può essere difficile da fare a mano! Fai aiutare Claude a generarne di più da un set di base di casi di test di esempio.
Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare un brainstorming con Claude!

Valutare le valutazioni

Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, affidabile e scalabile:

  1. Valutazione basata su codice: Più veloce e affidabile, estremamente scalabile, ma manca di sfumature per giudizi più complessi che richiedono meno rigidità basata su regole.

    • Corrispondenza esatta: output == golden_answer
    • Corrispondenza di stringhe: key_phrase in output
  2. Valutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

  3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa per garantire l’affidabilità prima e poi scala.

Suggerimenti per la valutazione basata su LLM

  • Avere rubriche dettagliate e chiare: “La risposta dovrebbe sempre menzionare ‘Acme Inc.’ nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come ‘errata’.”
    Un dato caso d’uso, o anche un criterio di successo specifico per quel caso d’uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
  • Empirico o specifico: Ad esempio, istruisci l’LLM a restituire solo ‘corretto’ o ‘errato’, o a giudicare su una scala da 1 a 5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su larga scala.
  • Incoraggiare il ragionamento: Chiedi all’LLM di pensare prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, in particolare per i compiti che richiedono un giudizio complesso.

Prossimi passi