Consultez notre guide pratique des évaluations pour accéder directement aux exemples de code.

Optimiser Claude pour vous offrir la meilleure précision possible sur une tâche est une science empirique et un processus d’amélioration continue. Que vous essayiez de déterminer si un changement dans votre prompt a amélioré les performances de Claude, que vous testiez différents modèles de Claude les uns contre les autres, ou que vous évaluiez si votre cas d’utilisation est prêt pour la production, un système d’évaluation bien conçu est essentiel pour réussir.

Dans ce guide, nous vous guiderons à travers le cycle de vie du développement des prompts, les différents types d’évaluations (evals) que vous pouvez utiliser, leurs avantages et inconvénients, et nous vous fournirons quelques directives sur la façon de choisir la meilleure évaluation pour votre cas d’utilisation.


Comment utiliser les évaluations

Les évaluations doivent faire partie intégrante de l’ensemble de votre cycle de vie de production lorsque vous travaillez avec des LLM. Elles fournissent une mesure quantitative des performances qui vous permet de suivre les progrès, d’identifier les problèmes et de prendre des décisions basées sur les données. Voici comment les évaluations s’intègrent aux différentes étapes du cycle de vie de production :

  1. Ingénierie des prompts : Le processus d’ingénierie des prompts doit commencer par la construction d’un ensemble rigoureux d’évaluations, et non par la rédaction d’un prompt. Ces évaluations serviront de base pour mesurer l’efficacité de vos prompts et vous aideront à les itérer et à les améliorer au fil du temps.
  2. Développement : Au fur et à mesure que vous développez votre application ou votre workflow avec Claude, utilisez les évaluations que vous avez conçues pendant la phase d’ingénierie des prompts pour tester régulièrement les performances de vos prompts, même si les prompts eux-mêmes n’ont pas changé. Les parties du workflow en dehors et en aval du prompt peuvent affecter par inadvertance les performances du modèle. Cela vous aidera à détecter tout problème rapidement et à vous assurer que vos workflows fonctionnent comme prévu.
  3. Tests finaux : Avant de déployer votre application ou votre workflow en production, créez au moins un ensemble supplémentaire d’évaluations que vous n’avez pas utilisées pendant la phase de développement. Cet ensemble d’évaluations en réserve vous aidera à évaluer les véritables performances de vos prompts et à vous assurer qu’ils n’ont pas été suroptimisés pour les évaluations utilisées pendant le développement.
  4. Production : Une fois que votre application ou votre workflow est en production, continuez à utiliser les évaluations pour surveiller les performances et identifier les problèmes potentiels. Vous pouvez également utiliser les évaluations pour comparer les performances des différents modèles de Claude ou des versions de vos prompts afin de prendre des décisions basées sur les données concernant les mises à jour et les améliorations.

En intégrant les évaluations tout au long du cycle de vie de production, vous pouvez vous assurer que vos prompts fonctionnent de manière optimale et que votre application ou votre workflow fournit les meilleurs résultats possibles.


Parties d’une évaluation

Les évaluations comportent généralement quatre parties :

  1. Prompt d’entrée : Le prompt qui est envoyé au modèle. Claude génère une complétion (c’est-à-dire une sortie) basée sur ce prompt. Souvent, lors de la conception des évaluations, la colonne d’entrée contiendra un ensemble d’entrées variables qui seront intégrées dans un modèle de prompt au moment du test.
  2. Sortie : Le texte généré en exécutant le prompt d’entrée à travers le modèle évalué.
  3. Réponse de référence : La réponse correcte à laquelle la sortie du modèle est comparée. La réponse de référence peut être une correspondance exacte obligatoire ou un exemple de réponse parfaite destiné à donner à un évaluateur (humain ou LLM) un point de comparaison pour la notation.
  4. Score : Une valeur numérique, générée par l’une des méthodes de notation discutées ci-dessous, qui représente la performance du modèle sur la question.

Méthodes de notation des évaluations

Il y a deux aspects des évaluations qui peuvent être chronophages et coûteux : la rédaction des paires de questions et de réponses de référence, et la notation. Alors que la rédaction des questions et des réponses de référence est généralement un coût fixe unique, la notation est un coût que vous devrez supporter chaque fois que vous réexécuterez votre évaluation, ce que vous ferez probablement fréquemment. Par conséquent, la conception d’évaluations qui peuvent être notées rapidement et à moindre coût doit être au centre de vos choix de conception.

Il existe trois façons courantes de noter les évaluations :

  1. Notation basée sur le code : Il s’agit d’utiliser du code standard (principalement la correspondance de chaînes et les expressions régulières) pour noter les sorties du modèle. Les versions courantes incluent la vérification d’une correspondance exacte avec une réponse ou la vérification qu’une chaîne contient une ou plusieurs phrases clés. C’est la meilleure méthode de notation si vous pouvez concevoir une évaluation qui le permet, car elle est rapide et très fiable. Cependant, de nombreuses évaluations ne permettent pas ce style de notation.
  2. Notation humaine : Un humain examine la réponse générée par le modèle, la compare à la réponse de référence et attribue un score. C’est la méthode de notation la plus performante, car elle peut être utilisée sur presque toutes les tâches, mais elle est aussi incroyablement lente et coûteuse, surtout si vous avez construit une grande évaluation. Vous devez essayer d’éviter autant que possible de concevoir des évaluations qui nécessitent une notation humaine.
  3. Notation basée sur un modèle : Claude est très capable de se noter lui-même et peut être utilisé pour noter une grande variété de tâches qui auraient pu nécessiter des humains par le passé, comme l’analyse du ton dans l’écriture créative ou la précision dans les réponses à des questions ouvertes. Vous pouvez le faire en écrivant un prompt de notation pour Claude.

Types d’évaluations

Il existe plusieurs types d’évaluations que vous pouvez utiliser pour mesurer les performances de Claude sur une tâche. Chaque type a ses propres forces et faiblesses.

Type d’évaluationDescriptionAvantagesInconvénients
Question à choix multiples (QCM)Questions fermées avec plusieurs réponses, dont au moins une est correcte- Facile à automatiser- Évalue les connaissances générales d’un sujet- Clé de réponse claire- Facile de savoir à quoi ressemble une réponse précise- Risque de fuite d’entraînement si le test est public- Limité pour évaluer des tâches plus complexes ou ouvertes
Correspondance exacte (EM)Vérifie si la réponse du modèle est exactement la même chaîne que la réponse correcte- Facile à automatiser- Haute précision dans l’évaluation des connaissances ou des tâches spécifiques- Facile de savoir à quoi ressemble une réponse précise- Limité pour évaluer des tâches plus complexes ou ouvertes- Peut ne pas capturer les variations dans les réponses correctes
Correspondance de chaîneVérifie si la réponse du modèle contient la chaîne de réponse- Facile à automatiser- Évalue la présence d’informations spécifiques dans la sortie du modèle- Peut ne pas capturer le contexte complet ou le sens de la réponse du modèle- Peut entraîner des faux positifs ou des faux négatifs
Réponse ouverte (OA)Questions ouvertes qui peuvent avoir plusieurs solutions possibles ou nécessiter des processus en plusieurs étapes pour être évaluées- Excellent pour évaluer les connaissances avancées, les connaissances tacites ou les performances qualitatives ouvertes- Peut être noté par des humains ou des modèles- Plus difficile à automatiser- Nécessite une grille de notation claire- La notation basée sur un modèle peut être moins précise que la notation humaine

Meilleures pratiques pour concevoir des évaluations

Lorsque vous concevez des évaluations pour votre cas d’utilisation spécifique, gardez à l’esprit les meilleures pratiques suivantes :

  1. Évaluations spécifiques à la tâche : Rendez vos évaluations spécifiques à votre tâche chaque fois que possible, et essayez de faire en sorte que la distribution dans votre évaluation représente la distribution réelle des questions et des difficultés des questions.
  2. Testez la notation basée sur un modèle : La seule façon de savoir si un évaluateur basé sur un modèle peut bien noter votre tâche est de l’essayer et de lire quelques échantillons pour voir si votre tâche est un bon candidat.
  3. Automatisez lorsque c’est possible : Souvent, une conception intelligente peut rendre une évaluation automatisable. Essayez de structurer les questions d’une manière qui permette une notation automatisée tout en restant fidèle à la tâche. Reformater les questions en choix multiples est une tactique courante.
  4. Privilégiez le volume à la qualité : En général, préférez un volume plus élevé et une qualité inférieure des questions à un volume très faible avec une qualité élevée.
  5. Utilisez le guide pratique des évaluations : Notre guide pratique des évaluations fournit des exemples implémentés de divers types d’évaluations notées par des humains et des modèles, y compris des conseils et du code que vous pouvez copier.

En suivant ces meilleures pratiques et en sélectionnant le type d’évaluation approprié pour votre cas d’utilisation, vous pouvez mesurer efficacement les performances de Claude et prendre des décisions basées sur les données pour améliorer vos prompts et vos workflows.