Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell’LLM contro quei criteri. Questa è una parte vitale del ciclo di ingegneria dei prompt.

Questa guida si concentra su come sviluppare i tuoi casi di test.

Costruire valutazioni e casi di test

Principi di progettazione delle valutazioni

  1. Essere specifici per il compito: Progetta valutazioni che rispecchino la distribuzione del tuo compito nel mondo reale. Non dimenticare di considerare i casi limite!
  2. Automatizzare quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es., scelta multipla, corrispondenza di stringhe, valutazione tramite codice, valutazione tramite LLM).
  3. Dare priorità al volume rispetto alla qualità: Più domande con valutazione automatizzata di segnale leggermente inferiore è meglio di meno domande con valutazioni manuali di alta qualità valutate da umani.

Esempi di valutazioni

Scrivere centinaia di casi di test può essere difficile da fare a mano! Fai aiutare Claude a generarne di più da un set di base di casi di test di esempio.
Se non sai quali metodi di valutazione potrebbero essere utili per valutare i tuoi criteri di successo, puoi anche fare brainstorming con Claude!

Valutare le valutazioni

Quando decidi quale metodo usare per valutare le valutazioni, scegli il metodo più veloce, più affidabile e più scalabile:

  1. Valutazione basata su codice: La più veloce e affidabile, estremamente scalabile, ma manca anche di sfumature per giudizi più complessi che richiedono meno rigidità basata su regole.

    • Corrispondenza esatta: output == golden_answer
    • Corrispondenza di stringhe: key_phrase in output
  2. Valutazione umana: La più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.

  3. Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta per giudizi complessi. Testa per assicurare l’affidabilità prima poi scala.

Consigli per la valutazione basata su LLM

  • Avere rubriche dettagliate e chiare: “La risposta dovrebbe sempre menzionare ‘Acme Inc.’ nella prima frase. Se non lo fa, la risposta è automaticamente valutata come ‘incorretta.’”
    Un dato caso d’uso, o anche un criterio di successo specifico per quel caso d’uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
  • Empirico o specifico: Ad esempio, istruisci l’LLM a produrre solo ‘corretto’ o ‘incorretto’, o a giudicare da una scala di 1-5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su scala.
  • Incoraggiare il ragionamento: Chiedi all’LLM di pensare prima prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, particolarmente per compiti che richiedono giudizi complessi.

Prossimi passi