Utilisation de l'outil d'évaluation

Accéder à la fonctionnalité d’évaluation

Pour commencer avec l’outil d’évaluation :

Ouvrez la Console Anthropic et accédez à l’éditeur de prompt.
Après avoir rédigé votre prompt, recherchez l’onglet ‘Evaluate’ en haut de l’écran.

Assurez-vous que votre prompt inclut au moins 1 à 2 variables dynamiques en utilisant la syntaxe à double accolade : {{variable}}. Ceci est nécessaire pour créer des ensembles de tests d’évaluation.

Génération de prompts

La Console propose un générateur de prompts intégré, alimenté par Claude Opus 4 :

Cliquez sur 'Generate Prompt'

Cliquer sur l’outil d’aide ‘Generate Prompt’ ouvrira une fenêtre modale qui vous permet de saisir les informations de votre tâche.

Décrivez votre tâche

Décrivez la tâche souhaitée (par exemple, “Trier les demandes entrantes du service client”) avec autant ou aussi peu de détails que vous le souhaitez. Plus vous incluez de contexte, plus Claude pourra adapter le prompt généré à vos besoins spécifiques.

Générez votre prompt

En cliquant sur le bouton orange ‘Generate Prompt’ en bas, Claude générera un prompt de haute qualité pour vous. Vous pourrez ensuite améliorer davantage ces prompts en utilisant l’écran d’évaluation dans la Console.

Cette fonctionnalité facilite la création de prompts avec la syntaxe de variable appropriée pour l’évaluation.

Création de cas de test

Lorsque vous accédez à l’écran d’évaluation, vous disposez de plusieurs options pour créer des cas de test :

Cliquez sur le bouton ’+ Add Row’ en bas à gauche pour ajouter manuellement un cas.
Utilisez la fonctionnalité ‘Generate Test Case’ pour que Claude génère automatiquement des cas de test pour vous.
Importez des cas de test à partir d’un fichier CSV.

Pour utiliser la fonctionnalité ‘Generate Test Case’ :

Cliquez sur 'Generate Test Case'

Claude générera des cas de test pour vous, une ligne à la fois à chaque fois que vous cliquez sur le bouton.

Modifiez la logique de génération (facultatif)

Vous pouvez également modifier la logique de génération de cas de test en cliquant sur la flèche déroulante à droite du bouton ‘Generate Test Case’, puis sur ‘Show generation logic’ en haut de la fenêtre Variables qui apparaît. Vous devrez peut-être cliquer sur `Generate’ en haut à droite de cette fenêtre pour remplir la logique de génération initiale.

Cette modification vous permet de personnaliser et d’affiner les cas de test que Claude génère avec plus de précision et de spécificité.

Voici un exemple d’écran d’évaluation rempli avec plusieurs cas de test :

Si vous mettez à jour le texte de votre prompt original, vous pouvez relancer l’ensemble de l’évaluation avec le nouveau prompt pour voir comment les modifications affectent les performances sur tous les cas de test.

Conseils pour une évaluation efficace

Structure de prompt pour l'évaluation

Pour tirer le meilleur parti de l’outil d’évaluation, structurez vos prompts avec des formats d’entrée et de sortie clairs. Par exemple :

Dans cette tâche, vous allez générer une histoire mignonne d'une phrase qui incorpore deux éléments : une couleur et un son.
La couleur à inclure dans l'histoire est :
<color>
{{COLOR}}
</color>
Le son à inclure dans l'histoire est :
<sound>
{{SOUND}}
</sound>
Voici les étapes pour générer l'histoire :
1. Pensez à un objet, un animal ou une scène communément associé à la couleur fournie. Par exemple, si la couleur est "bleu", vous pourriez penser au ciel, à l'océan ou à un oiseau bleu.
2. Imaginez une action, un événement ou une scène simple impliquant l'objet/animal/scène coloré que vous avez identifié et le son fourni. Par exemple, si la couleur est "bleu" et le son est "sifflement", vous pourriez imaginer un oiseau bleu sifflant une mélodie.
3. Décrivez l'action, l'événement ou la scène que vous avez imaginé en une seule phrase concise. Concentrez-vous sur la création d'une phrase mignonne, évocatrice et imaginative. Par exemple : "Un joyeux oiseau bleu sifflait une mélodie joyeuse en s'élevant dans le ciel azur."
Veuillez limiter votre histoire à une seule phrase. Essayez de rendre cette phrase aussi charmante et engageante que possible tout en incorporant naturellement la couleur et le son donnés.
Écrivez votre histoire complète d'une phrase à l'intérieur des balises <story>.

Cette structure facilite la variation des entrées ({{COLOR}} et {{SOUND}}) et l’évaluation cohérente des sorties.

Utilisez l’outil d’aide ‘Generate a prompt’ dans la Console pour créer rapidement des prompts avec la syntaxe de variable appropriée pour l’évaluation.

Comprendre et comparer les résultats

L’outil d’évaluation offre plusieurs fonctionnalités pour vous aider à affiner vos prompts :

Comparaison côte à côte : Comparez les sorties de deux prompts ou plus pour voir rapidement l’impact de vos modifications.
Évaluation de la qualité : Notez la qualité des réponses sur une échelle de 5 points pour suivre les améliorations de la qualité des réponses par prompt.
Versionnage des prompts : Créez de nouvelles versions de votre prompt et relancez la suite de tests pour itérer rapidement et améliorer les résultats.

En examinant les résultats à travers les cas de test et en comparant différentes versions de prompts, vous pouvez repérer des modèles et apporter des ajustements éclairés à votre prompt plus efficacement.

Commencez à évaluer vos prompts dès aujourd’hui pour créer des applications d’IA plus robustes avec Claude !

Développer des cas de test Réduction de la latence

On this page

Accéder à la fonctionnalité d’évaluation
Génération de prompts
Création de cas de test
Conseils pour une évaluation efficace
Comprendre et comparer les résultats

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

Utilisation de l'outil d'évaluation

Accéder à la fonctionnalité d’évaluation

Génération de prompts

Création de cas de test

Conseils pour une évaluation efficace

Comprendre et comparer les résultats

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

​Accéder à la fonctionnalité d’évaluation

​Génération de prompts

​Création de cas de test

​Conseils pour une évaluation efficace

​Comprendre et comparer les résultats

Accéder à la fonctionnalité d’évaluation

Génération de prompts

Création de cas de test

Conseils pour une évaluation efficace

Comprendre et comparer les résultats