Creare valutazioni empiriche solide
Sviluppa casi di test per misurare le prestazioni del tuo LLM contro i criteri di successo definiti.
Dopo aver definito i tuoi criteri di successo, il passo successivo è progettare valutazioni per misurare le prestazioni dell’LLM contro quei criteri. Questa è una parte vitale del ciclo di ingegneria dei prompt.
Questa guida si concentra su come sviluppare i tuoi casi di test.
Costruire valutazioni e casi di test
Principi di progettazione delle valutazioni
- Essere specifici per il compito: Progetta valutazioni che rispecchino la distribuzione del tuo compito nel mondo reale. Non dimenticare di considerare i casi limite!
- Automatizzare quando possibile: Struttura le domande per consentire la valutazione automatizzata (ad es., scelta multipla, corrispondenza di stringhe, valutazione tramite codice, valutazione tramite LLM).
- Dare priorità al volume rispetto alla qualità: Più domande con valutazione automatizzata di segnale leggermente inferiore è meglio di meno domande con valutazioni manuali di alta qualità valutate da umani.
Esempi di valutazioni
Valutare le valutazioni
Quando decidi quale metodo usare per valutare le valutazioni, scegli il metodo più veloce, più affidabile e più scalabile:
-
Valutazione basata su codice: La più veloce e affidabile, estremamente scalabile, ma manca anche di sfumature per giudizi più complessi che richiedono meno rigidità basata su regole.
- Corrispondenza esatta:
output == golden_answer
- Corrispondenza di stringhe:
key_phrase in output
- Corrispondenza esatta:
-
Valutazione umana: La più flessibile e di alta qualità, ma lenta e costosa. Evita se possibile.
-
Valutazione basata su LLM: Veloce e flessibile, scalabile e adatta per giudizi complessi. Testa per assicurare l’affidabilità prima poi scala.
Consigli per la valutazione basata su LLM
- Avere rubriche dettagliate e chiare: “La risposta dovrebbe sempre menzionare ‘Acme Inc.’ nella prima frase. Se non lo fa, la risposta è automaticamente valutata come ‘incorretta.’”
Un dato caso d’uso, o anche un criterio di successo specifico per quel caso d’uso, potrebbe richiedere diverse rubriche per una valutazione olistica.
- Empirico o specifico: Ad esempio, istruisci l’LLM a produrre solo ‘corretto’ o ‘incorretto’, o a giudicare da una scala di 1-5. Le valutazioni puramente qualitative sono difficili da valutare rapidamente e su scala.
- Incoraggiare il ragionamento: Chiedi all’LLM di pensare prima prima di decidere un punteggio di valutazione, e poi scarta il ragionamento. Questo aumenta le prestazioni di valutazione, particolarmente per compiti che richiedono giudizi complessi.