Consulta il nostro evals cookbook per andare direttamente agli esempi di codice.

Ottimizzare Claude per ottenere la massima precisione possibile su un’attività è una scienza empirica e un processo di miglioramento continuo. Sia che tu stia cercando di determinare se una modifica al tuo prompt ha migliorato le prestazioni di Claude, testando diversi modelli di Claude tra loro o valutando se il tuo caso d’uso è pronto per la produzione, un sistema di valutazione ben progettato è fondamentale per il successo.

In questa guida, ti guideremo attraverso il ciclo di vita dello sviluppo dei prompt, i diversi tipi di valutazioni (eval) che puoi utilizzare, i loro pro e contro, e forniremo alcune linee guida su come scegliere la valutazione migliore per il tuo caso d’uso.


Come utilizzare le valutazioni

Le valutazioni dovrebbero essere parte integrante dell’intero ciclo di vita della produzione quando si lavora con gli LLM. Forniscono una misura quantitativa delle prestazioni che consente di monitorare i progressi, identificare i problemi e prendere decisioni basate sui dati. Ecco come le valutazioni si inseriscono nelle diverse fasi del ciclo di vita della produzione:

  1. Prompt engineering: Il processo di prompt engineering dovrebbe iniziare con la costruzione di un set rigoroso di valutazioni, non con la scrittura di un prompt. Queste valutazioni serviranno come base per misurare l’efficacia dei tuoi prompt e ti aiuteranno a iterare e migliorarli nel tempo.
  2. Sviluppo: Durante lo sviluppo della tua applicazione o del tuo flusso di lavoro con Claude, utilizza le valutazioni progettate durante la fase di prompt engineering per testare regolarmente le prestazioni dei tuoi prompt, anche se i prompt stessi non sono cambiati. Parti del flusso di lavoro esterne e a valle del prompt possono influenzare inavvertitamente le prestazioni del modello. Questo ti aiuterà a individuare eventuali problemi in anticipo e a garantire che i tuoi flussi di lavoro funzionino come previsto.
  3. Test finale: Prima di distribuire la tua applicazione o il tuo flusso di lavoro in produzione, crea almeno un set aggiuntivo di valutazioni che non hai utilizzato durante la fase di sviluppo. Questo set di valutazioni trattenuto ti aiuterà a valutare le reali prestazioni dei tuoi prompt e a garantire che non siano stati sovradattati alle valutazioni utilizzate durante lo sviluppo.
  4. Produzione: Una volta che la tua applicazione o il tuo flusso di lavoro è in produzione, continua a utilizzare le valutazioni per monitorare le prestazioni e identificare eventuali problemi. Puoi anche utilizzare le valutazioni per confrontare le prestazioni di diversi modelli di Claude o versioni dei tuoi prompt per prendere decisioni basate sui dati su aggiornamenti e miglioramenti.

Incorporando le valutazioni in tutto il ciclo di vita della produzione, puoi assicurarti che i tuoi prompt funzionino in modo ottimale e che la tua applicazione o il tuo flusso di lavoro fornisca i migliori risultati possibili.


Parti di una valutazione

Le valutazioni hanno tipicamente quattro parti:

  1. Prompt di input: Il prompt che viene fornito al modello. Claude genera un completamento (a.k.a. output) basato su questo prompt. Spesso, quando si progettano le valutazioni, la colonna di input conterrà un insieme di input variabili che vengono inseriti in un modello di prompt al momento del test.
  2. Output: Il testo generato eseguendo il prompt di input attraverso il modello valutato.
  3. Risposta d’oro: La risposta corretta con cui viene confrontato l’output del modello. La risposta d’oro potrebbe essere una corrispondenza esatta obbligatoria o un esempio di una risposta perfetta destinata a fornire a un valutatore (umano o LLM) un punto di confronto per il punteggio.
  4. Punteggio: Un valore numerico, generato da uno dei metodi di valutazione discussi di seguito, che rappresenta quanto bene il modello ha eseguito la domanda.

Metodi di valutazione

Ci sono due aspetti delle valutazioni che possono essere dispendiosi in termini di tempo e costi: la scrittura delle coppie di domande e risposte d’oro e la valutazione. Mentre la scrittura di domande e risposte d’oro è tipicamente un costo fisso una tantum, la valutazione è un costo che sosterrai ogni volta che riesegui la tua valutazione, cosa che probabilmente farai frequentemente. Di conseguenza, la costruzione di valutazioni che possono essere valutate rapidamente ed economicamente dovrebbe essere al centro delle tue scelte di progettazione.

Ci sono tre modi comuni per valutare le valutazioni:

  1. Valutazione basata sul codice: Questo implica l’utilizzo di codice standard (principalmente corrispondenza di stringhe ed espressioni regolari) per valutare gli output del modello. Le versioni comuni includono il controllo di una corrispondenza esatta con una risposta o il controllo che una stringa contenga alcune frasi chiave. Questo è il miglior metodo di valutazione se puoi progettare una valutazione che lo consente, poiché è veloce e altamente affidabile. Tuttavia, molte valutazioni non consentono questo stile di valutazione.
  2. Valutazione umana: Un essere umano esamina la risposta generata dal modello, la confronta con la risposta d’oro e assegna un punteggio. Questo è il metodo di valutazione più capace, poiché può essere utilizzato su quasi tutte le attività, ma è anche incredibilmente lento e costoso, soprattutto se hai costruito una valutazione di grandi dimensioni. Dovresti cercare di evitare il più possibile di progettare valutazioni che richiedono una valutazione umana.
  3. Valutazione basata sul modello: Claude è altamente capace di valutare se stesso e può essere utilizzato per valutare un’ampia varietà di attività che in passato avrebbero richiesto l’intervento umano, come l’analisi del tono nella scrittura creativa o l’accuratezza nelle risposte a domande a forma libera. Puoi farlo scrivendo un prompt di valutazione per Claude.

Tipi di valutazioni

Esistono diversi tipi di valutazioni che puoi utilizzare per misurare le prestazioni di Claude su un’attività. Ogni tipo ha i suoi punti di forza e di debolezza.

Tipo di valutazioneDescrizioneProContro
Domanda a scelta multipla (MCQ)Domande a forma chiusa con più risposte, di cui almeno una è corretta- Facile da automatizzare- Valuta la conoscenza generale di un argomento- Chiave di risposta chiara- Facile sapere come appare accurata- Potenziale perdita di addestramento se il test è pubblico- Limitato nella valutazione di attività più complesse o aperte
Corrispondenza esatta (EM)Verifica se la risposta del modello è esattamente la stessa stringa della risposta corretta- Facile da automatizzare- Alta precisione nella valutazione di conoscenze o attività specifiche- Facile sapere come appare accurata- Limitato nella valutazione di attività più complesse o aperte- Potrebbe non catturare variazioni nelle risposte corrette
Corrispondenza di stringaVerifica se la risposta del modello contiene la stringa di risposta- Facile da automatizzare- Valuta la presenza di informazioni specifiche nell’output del modello- Potrebbe non catturare il contesto completo o il significato della risposta del modello- Può risultare in falsi positivi o negativi
Risposta aperta (OA)Domande aperte che possono avere più soluzioni possibili o richiedere processi a più fasi per la valutazione- Ottimo per valutare conoscenze avanzate, conoscenze tacite o prestazioni qualitative aperte- Può essere valutato da umani o modelli- Più difficile da automatizzare- Richiede una rubrica chiara per la valutazione- La valutazione basata sul modello può essere meno accurata della valutazione umana

Migliori pratiche per la progettazione di valutazioni

Quando progetti valutazioni per il tuo caso d’uso specifico, tieni a mente le seguenti migliori pratiche:

  1. Valutazioni specifiche per l’attività: Rendi le tue valutazioni specifiche per la tua attività ogni volta che è possibile e cerca di far rappresentare alla distribuzione nella tua valutazione la distribuzione reale delle domande e delle difficoltà delle domande.
  2. Testa la valutazione basata sul modello: L’unico modo per sapere se un valutatore basato sul modello può fare un buon lavoro di valutazione del tuo compito è provarlo e leggere alcuni campioni per vedere se il tuo compito è un buon candidato.
  3. Automatizza quando possibile: Spesso, una progettazione intelligente può rendere una valutazione automatizzabile. Cerca di strutturare le domande in modo da consentire una valutazione automatizzata pur rimanendo fedele all’attività. Riformattare le domande in scelta multipla è una tattica comune.
  4. Dai priorità al volume rispetto alla qualità: In generale, preferisci un volume più elevato e una qualità inferiore delle domande rispetto a un volume molto basso con un’alta qualità.
  5. Utilizza il cookbook delle valutazioni: Il nostro evals cookbook fornisce esempi implementati di vari tipi di valutazioni valutate da umani e modelli, incluse linee guida e codice che puoi copiare.

Seguendo queste migliori pratiche e selezionando il tipo di valutazione appropriato per il tuo caso d’uso, puoi misurare efficacemente le prestazioni di Claude e prendere decisioni basate sui dati per migliorare i tuoi prompt e flussi di lavoro.