Utilizzo dello Strumento di Valutazione

Accesso alla Funzione di Valutazione

Per iniziare con lo strumento di Valutazione:

Apri la Console Anthropic e naviga verso l’editor di prompt.
Dopo aver composto il tuo prompt, cerca la scheda ‘Evaluate’ nella parte superiore dello schermo.

Assicurati che il tuo prompt includa almeno 1-2 variabili dinamiche utilizzando la sintassi delle doppie parentesi graffe: {{variable}}. Questo è necessario per creare set di test di valutazione.

Generazione di Prompt

La Console offre un generatore di prompt integrato alimentato da Claude Opus 4.1:

Clicca 'Generate Prompt'

Cliccando sullo strumento helper ‘Generate Prompt’ si aprirà una finestra modale che ti permette di inserire le informazioni del tuo compito.

Descrivi il tuo compito

Descrivi il compito desiderato (ad esempio, “Smistare le richieste di supporto clienti in arrivo”) con tutti i dettagli che desideri o con pochi dettagli. Più contesto includi, più Claude può adattare il prompt generato alle tue esigenze specifiche.

Genera il tuo prompt

Cliccando il pulsante arancione ‘Generate Prompt’ in basso, Claude genererà un prompt di alta qualità per te. Puoi quindi migliorare ulteriormente quei prompt utilizzando la schermata di Valutazione nella Console.

Questa funzione rende più facile creare prompt con la sintassi delle variabili appropriata per la valutazione.

Creazione di Casi di Test

Quando accedi alla schermata di Valutazione, hai diverse opzioni per creare casi di test:

Clicca il pulsante ’+ Add Row’ in basso a sinistra per aggiungere manualmente un caso.
Usa la funzione ‘Generate Test Case’ per far generare automaticamente casi di test a Claude.
Importa casi di test da un file CSV.

Per utilizzare la funzione ‘Generate Test Case’:

Clicca su 'Generate Test Case'

Claude genererà casi di test per te, una riga alla volta per ogni volta che clicchi il pulsante.

Modifica la logica di generazione (opzionale)

Puoi anche modificare la logica di generazione dei casi di test cliccando sulla freccia del menu a discesa a destra del pulsante ‘Generate Test Case’, poi su ‘Show generation logic’ nella parte superiore della finestra Variables che appare. Potresti dover cliccare `Generate’ in alto a destra di questa finestra per popolare la logica di generazione iniziale.Modificare questo ti permette di personalizzare e affinare i casi di test che Claude genera con maggiore precisione e specificità.

Ecco un esempio di una schermata di Valutazione popolata con diversi casi di test:

Se aggiorni il testo del tuo prompt originale, puoi ri-eseguire l’intera suite di valutazione contro il nuovo prompt per vedere come i cambiamenti influenzano le prestazioni in tutti i casi di test.

Suggerimenti per una Valutazione Efficace

Struttura del Prompt per la Valutazione

Per sfruttare al meglio lo strumento di Valutazione, struttura i tuoi prompt con formati di input e output chiari. Per esempio:

In questo compito, genererai una storia carina di una frase che incorpora due elementi: un colore e un suono.
Il colore da includere nella storia è:
<color>
{{COLOR}}
</color>
Il suono da includere nella storia è:
<sound>
{{SOUND}}
</sound>
Ecco i passaggi per generare la storia:
1. Pensa a un oggetto, animale o scena che è comunemente associato al colore fornito. Per esempio, se il colore è "blu", potresti pensare al cielo, all'oceano o a un uccello blu.
2. Immagina un'azione semplice, evento o scena che coinvolge l'oggetto/animale/scena colorato che hai identificato e il suono fornito. Per esempio, se il colore è "blu" e il suono è "fischio", potresti immaginare un uccello blu che fischia una melodia.
3. Descrivi l'azione, evento o scena che hai immaginato in una singola frase concisa. Concentrati nel rendere la frase carina, evocativa e fantasiosa. Per esempio: "Un allegro uccello blu fischiò una melodia allegra mentre volava attraverso il cielo azzurro."
Per favore mantieni la tua storia a una sola frase. Mira a rendere quella frase il più affascinante e coinvolgente possibile incorporando naturalmente il colore e il suono dati.
Scrivi la tua storia completa di una frase dentro i tag <story>.

Questa struttura rende facile variare gli input ({{COLOR}} e {{SOUND}}) e valutare gli output in modo coerente.

Usa lo strumento helper ‘Generate a prompt’ nella Console per creare rapidamente prompt con la sintassi delle variabili appropriata per la valutazione.

Comprensione e confronto dei risultati

Lo strumento di Valutazione offre diverse funzioni per aiutarti a raffinare i tuoi prompt:

Confronto affiancato: Confronta gli output di due o più prompt per vedere rapidamente l’impatto dei tuoi cambiamenti.
Valutazione della qualità: Valuta la qualità delle risposte su una scala a 5 punti per tracciare i miglioramenti nella qualità delle risposte per prompt.
Versioning dei prompt: Crea nuove versioni del tuo prompt e ri-esegui la suite di test per iterare rapidamente e migliorare i risultati.

Rivedendo i risultati attraverso i casi di test e confrontando diverse versioni di prompt, puoi individuare pattern e fare aggiustamenti informati al tuo prompt in modo più efficiente. Inizia a valutare i tuoi prompt oggi per costruire applicazioni AI più robuste con Claude!

Primi passi

Modelli e prezzi

Scopri Claude

Funzionalità

Strumenti

Model Context Protocol (MCP)

Casi d'uso

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

Centro legale

Utilizzo dello Strumento di Valutazione

Accesso alla Funzione di Valutazione

Generazione di Prompt

Creazione di Casi di Test

Suggerimenti per una Valutazione Efficace

Comprensione e confronto dei risultati

Primi passi

Modelli e prezzi

Scopri Claude

Funzionalità

Strumenti

Model Context Protocol (MCP)

Casi d'uso

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

Centro legale

​Accesso alla Funzione di Valutazione

​Generazione di Prompt

​Creazione di Casi di Test

​Suggerimenti per una Valutazione Efficace

​Comprensione e confronto dei risultati

Accesso alla Funzione di Valutazione

Generazione di Prompt

Creazione di Casi di Test

Suggerimenti per una Valutazione Efficace

Comprensione e confronto dei risultati