Définissez vos critères de réussite
La création d’une application réussie basée sur les LLM commence par une définition claire de vos critères de réussite. Comment saurez-vous quand votre application sera suffisamment bonne pour être publiée ?
Avoir des critères de réussite clairs garantit que vos efforts d’ingénierie et d’optimisation des prompts sont concentrés sur l’atteinte d’objectifs spécifiques et mesurables.
Établir des critères solides
De bons critères de réussite sont :
-
Spécifiques : Définissez clairement ce que vous voulez accomplir. Au lieu de “bonne performance”, spécifiez “classification précise des sentiments”.
-
Mesurables : Utilisez des métriques quantitatives ou des échelles qualitatives bien définies. Les chiffres apportent clarté et évolutivité, mais les mesures qualitatives peuvent être précieuses si elles sont appliquées de manière cohérente avec les mesures quantitatives.
- Même les sujets “flous” comme l’éthique et la sécurité peuvent être quantifiés :
Critères de sécurité Mauvais Sorties sécurisées Bon Moins de 0,1 % des sorties sur 10 000 essais signalées pour toxicité par notre filtre de contenu.
- Même les sujets “flous” comme l’éthique et la sécurité peuvent être quantifiés :
-
Atteignables : Basez vos objectifs sur les références du secteur, les expériences antérieures, la recherche en IA ou l’expertise. Vos métriques de réussite ne doivent pas être irréalistes par rapport aux capacités actuelles des modèles de pointe.
-
Pertinents : Alignez vos critères sur l’objectif de votre application et les besoins des utilisateurs. La précision des citations peut être cruciale pour les applications médicales mais moins importante pour les chatbots occasionnels.
Critères de réussite courants à considérer
Voici quelques critères qui pourraient être importants pour votre cas d’utilisation. Cette liste n’est pas exhaustive.
La plupart des cas d’utilisation nécessiteront une évaluation multidimensionnelle selon plusieurs critères de réussite.
Prochaines étapes
Réfléchir aux critères
Réfléchissez aux critères de réussite pour votre cas d’utilisation avec Claude sur claude.ai.
Conseil : Déposez cette page dans le chat comme guide pour Claude !
Concevoir les évaluations
Apprenez à construire des jeux de test solides pour évaluer la performance de Claude par rapport à vos critères.
Was this page helpful?