Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell’LLM rispetto a tali criteri. Questa è una parte vitale del ciclo di prompt engineering.

Questa guida si concentra su come sviluppare i tuoi casi di test.

Costruire valutazioni e casi di test

Principi di progettazione delle valutazioni

  1. Sii specifico per il compito: Progetta valutazioni che rispecchino la distribuzione dei tuoi compiti nel mondo reale. Non dimenticare di considerare i casi limite!
  2. Automatizza quando possibile: Struttura le domande per consentire una valutazione automatizzata (ad esempio, scelta multipla, corrispondenza di stringhe, valutazione basata su codice, valutazione basata su LLM).
  3. Dai priorità al volume rispetto alla qualità: Più domande con valutazione automatizzata di segnale leggermente inferiore è meglio di poche domande con valutazioni di alta qualità valutate manualmente dagli umani.

Esempi di valutazioni

Scrivere centinaia di casi di test può essere difficile da fare a mano! Chiedi a Claude di aiutarti a generarne altri a partire da un set di base di casi di test di esempio.
Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare un brainstorming con Claude!

Valutare le valutazioni

Quando decidi quale metodo utilizzare per valutare le valutazioni, scegli il metodo più veloce, più affidabile e più scalabile:

  1. Valutazione basata su codice: Più veloce e più affidabile, estremamente scalabile, ma manca anche di sfumature per giudizi più complessi che richiedono una minore rigidità basata su regole.

    • Corrispondenza esatta: output == golden_answer
    • Corrispondenza di stringhe: key_phrase in output
  2. Valutazione umana: Più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

  3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta a giudizi complessi. Testa prima per garantire l’affidabilità, poi scala.

Suggerimenti per la valutazione basata su LLM

  • Avere rubriche dettagliate e chiare: “La risposta dovrebbe sempre menzionare ‘Acme Inc.’ nella prima frase. Se non lo fa, la risposta viene automaticamente valutata come ‘incorretta’.”
    Un determinato caso d’uso, o anche un criterio di successo specifico per quel caso d’uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
  • Empirica o specifica: Ad esempio, istruisci l’LLM a produrre solo ‘corretto’ o ‘scorretto’, o a giudicare su una scala da 1 a 5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su larga scala.
  • Incoraggia il ragionamento: Chiedi all’LLM di pensare prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, in particolare per compiti che richiedono un giudizio complesso.

Prossimi passi