Accéder à la fonctionnalité d’évaluation

Pour commencer avec l’outil d’évaluation :

  1. Ouvrez la Console Anthropic et accédez à l’éditeur de prompts.
  2. Après avoir composé votre prompt, recherchez l’onglet “Evaluate” en haut de l’écran.

Accéder à la fonctionnalité d'évaluation

Assurez-vous que votre prompt inclut au moins 1 à 2 variables dynamiques en utilisant la syntaxe à double accolade : {{variable}}. Ceci est nécessaire pour créer des jeux de tests d’évaluation.

Générer des prompts

La Console offre un générateur de prompts intégré alimenté par Claude 3.5 Sonnet :

1

Cliquez sur 'Générer un prompt'

En cliquant sur l’outil d’aide “Générer un prompt”, une fenêtre modale s’ouvrira vous permettant de saisir les informations de votre tâche.

2

Décrivez votre tâche

Décrivez la tâche souhaitée (par exemple, “Trier les demandes de support client entrants”) avec autant ou aussi peu de détails que vous le souhaitez. Plus vous incluez de contexte, plus Claude pourra adapter le prompt généré à vos besoins spécifiques.

3

Générez votre prompt

En cliquant sur le bouton orange “Générer un prompt” en bas, Claude générera un prompt de haute qualité pour vous. Vous pouvez ensuite améliorer davantage ces prompts en utilisant l’écran d’évaluation dans la Console.

Cette fonctionnalité facilite la création de prompts avec la syntaxe de variables appropriée pour l’évaluation.

Générateur de prompts

Créer des cas de test

Lorsque vous accédez à l’écran d’évaluation, vous avez plusieurs options pour créer des cas de test :

  1. Cliquez sur le bouton ”+ Ajouter une ligne” en bas à gauche pour ajouter manuellement un cas.
  2. Utilisez la fonctionnalité “Générer un cas de test” pour que Claude génère automatiquement des cas de test pour vous.
  3. Importez des cas de test à partir d’un fichier CSV.

Pour utiliser la fonctionnalité “Générer un cas de test” :

1

Cliquez sur 'Générer un cas de test'

Claude générera des cas de test pour vous, une ligne à la fois à chaque fois que vous cliquerez sur le bouton.

2

Modifier la logique de génération (facultatif)

Vous pouvez également modifier la logique de génération des cas de test en cliquant sur la flèche déroulante à droite du bouton “Générer un cas de test”, puis sur “Afficher la logique de génération” en haut de la fenêtre Variables qui s’affiche. Vous devrez peut-être cliquer sur “Générer” en haut à droite de cette fenêtre pour remplir la logique de génération initiale.

La modification de cette logique vous permet de personnaliser et d’affiner les cas de test générés par Claude avec une plus grande précision et spécificité.

Voici un exemple d’écran d’évaluation rempli avec plusieurs cas de test :

Écran d'évaluation rempli

Si vous mettez à jour le texte de votre prompt d’origine, vous pouvez réexécuter l’ensemble de la suite d’évaluation par rapport au nouveau prompt pour voir comment les changements affectent les performances dans tous les cas de test.

Conseils pour une évaluation efficace

Utilisez l’outil d’aide “Générer un prompt” dans la Console pour créer rapidement des prompts avec la syntaxe de variables appropriée pour l’évaluation.

Comprendre et comparer les résultats

L’outil d’évaluation offre plusieurs fonctionnalités pour vous aider à affiner vos prompts :

  1. Comparaison côte à côte : Comparez les sorties de deux prompts ou plus pour voir rapidement l’impact de vos changements.
  2. Notation de la qualité : Notez la qualité des réponses sur une échelle de 5 points pour suivre les améliorations de la qualité des réponses par prompt.
  3. Versionnage des prompts : Créez de nouvelles versions de votre prompt et réexécutez la suite de tests pour itérer et améliorer rapidement les résultats.

En examinant les résultats dans tous les cas de test et en comparant différentes versions de prompts, vous pouvez repérer des tendances et apporter des ajustements éclairés à votre prompt plus efficacement.

Commencez à évaluer vos prompts dès aujourd’hui pour créer des applications d’IA plus robustes avec Claude !