Après avoir défini vos critères de réussite, l’étape suivante consiste à concevoir des évaluations pour mesurer les performances du LLM par rapport à ces critères. C’est une partie essentielle du cycle d’ingénierie des prompts.

Ce guide se concentre sur la façon de développer vos cas de test.

Construire des évaluations et des cas de test

Principes de conception des évaluations

  1. Être spécifique à la tâche : Concevez des évaluations qui reflètent la distribution de vos tâches réelles. N’oubliez pas de prendre en compte les cas limites !
  2. Automatiser quand c’est possible : Structurez les questions pour permettre une notation automatisée (par exemple, choix multiple, correspondance de chaînes, notation par code, notation par LLM).
  3. Privilégier le volume à la qualité : Plus de questions avec une notation automatisée de signal légèrement inférieur est préférable à moins de questions avec des évaluations manuelles de haute qualité notées par des humains.

Exemples d’évaluations

Rédiger des centaines de cas de test peut être difficile à faire manuellement ! Demandez à Claude de vous aider à en générer davantage à partir d’un ensemble de base de cas de test exemples.
Si vous ne savez pas quelles méthodes d’évaluation pourraient être utiles pour évaluer vos critères de réussite, vous pouvez également faire un brainstorming avec Claude !

Noter les évaluations

Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus évolutive :

  1. Notation basée sur le code : La plus rapide et la plus fiable, extrêmement évolutive, mais manque également de nuance pour des jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.

    • Correspondance exacte : output == golden_answer
    • Correspondance de chaîne : key_phrase in output
  2. Notation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.

  3. Notation basée sur LLM : Rapide et flexible, évolutive et adaptée aux jugements complexes. Testez d’abord pour assurer la fiabilité, puis mettez à l’échelle.

Conseils pour la notation basée sur LLM

  • Avoir des rubriques détaillées et claires : “La réponse devrait toujours mentionner ‘Acme Inc.’ dans la première phrase. Si ce n’est pas le cas, la réponse est automatiquement notée comme ‘incorrecte’.”
    Un cas d’utilisation donné, ou même un critère de réussite spécifique pour ce cas d’utilisation, peut nécessiter plusieurs rubriques pour une évaluation holistique.
  • Empirique ou spécifique : Par exemple, demandez au LLM de produire uniquement ‘correct’ ou ‘incorrect’, ou de juger sur une échelle de 1 à 5. Les évaluations purement qualitatives sont difficiles à évaluer rapidement et à grande échelle.
  • Encourager le raisonnement : Demandez au LLM de réfléchir d’abord avant de décider d’un score d’évaluation, puis écartez le raisonnement. Cela augmente les performances d’évaluation, en particulier pour les tâches nécessitant un jugement complexe.

Prochaines étapes