Définir vos critères de réussite

La création d’une application réussie basée sur les LLM commence par une définition claire de vos critères de réussite. Comment saurez-vous quand votre application sera suffisamment bonne pour être publiée ?

Avoir des critères de réussite clairs garantit que vos efforts d’ingénierie et d’optimisation des prompts sont concentrés sur l’atteinte d’objectifs spécifiques et mesurables.

Élaborer des critères solides

De bons critères de réussite sont :

Spécifiques : Définissez clairement ce que vous voulez accomplir. Au lieu de “bonnes performances”, précisez “classification précise des sentiments”.
Mesurables : Utilisez des métriques quantitatives ou des échelles qualitatives bien définies. Les chiffres apportent de la clarté et de l’évolutivité, mais les mesures qualitatives peuvent être précieuses si elles sont appliquées de manière cohérente avec des mesures quantitatives.
- Même des sujets “flous” comme l’éthique et la sécurité peuvent être quantifiés :
  Critères de sécurité
  Mauvais Sorties sécurisées
  Bon Moins de 0,1 % des sorties sur 10 000 essais signalées pour toxicité par notre filtre de contenu.
Métriques quantitatives :
- Spécifiques à la tâche : score F1, score BLEU, perplexité
- Génériques : Précision, exactitude, rappel
- Opérationnelles : Temps de réponse (ms), disponibilité (%)
Méthodes quantitatives :
- Tests A/B : Comparer les performances par rapport à un modèle de référence ou une version antérieure.
- Retour utilisateur : Mesures implicites comme les taux d’achèvement des tâches.
- Analyse des cas limites : Pourcentage de cas limites traités sans erreurs.
Échelles qualitatives :
- Échelles de Likert : “Évaluez la cohérence de 1 (absurde) à 5 (parfaitement logique)”
- Grilles d’experts : Linguistes évaluant la qualité de traduction selon des critères définis
Atteignables : Basez vos objectifs sur les références du secteur, les expériences antérieures, la recherche en IA ou les connaissances d’experts. Vos métriques de réussite ne doivent pas être irréalistes par rapport aux capacités actuelles des modèles de pointe.
Pertinents : Alignez vos critères sur l’objectif de votre application et les besoins des utilisateurs. Une forte précision des citations peut être cruciale pour les applications médicales mais moins importante pour les chatbots occasionnels.

	Critères de sécurité
Mauvais	Sorties sécurisées
Bon	Moins de 0,1 % des sorties sur 10 000 essais signalées pour toxicité par notre filtre de contenu.

Exemple de critères de fidélité pour l'analyse de sentiment

	Critères
Mauvais	Le modèle doit bien classifier les sentiments
Bon	Notre modèle d’analyse de sentiment doit atteindre un score F1 d’au moins 0,85 (Mesurable, Spécifique) sur un ensemble de test indépendant* de 10 000 tweets divers (Pertinent), ce qui représente une amélioration de 5 % par rapport à notre référence actuelle (Atteignable).

*Plus d’informations sur les ensembles de test indépendants dans la section suivante

Critères de réussite courants à considérer

Voici quelques critères qui pourraient être importants pour votre cas d’utilisation. Cette liste n’est pas exhaustive.

Fidélité à la tâche

Cohérence

Pertinence et cohérence

Ton et style

Préservation de la confidentialité

Utilisation du contexte

Latence

Prix

La plupart des cas d’utilisation nécessiteront une évaluation multidimensionnelle selon plusieurs critères de réussite.

Exemple de critères multidimensionnels pour l'analyse de sentiment

	Critères
Mauvais	Le modèle doit bien classifier les sentiments
Bon	Sur un ensemble de test indépendant de 10 000 tweets divers, notre modèle d’analyse de sentiment doit atteindre : - un score F1 d’au moins 0,85 - 99,5 % des sorties sont non toxiques - 90 % des erreurs causeraient un inconvénient, pas une erreur grave* - 95 % des temps de réponse < 200 ms

*En réalité, nous définirions également ce que signifient “inconvénient” et “grave”.

Prochaines étapes

Réfléchir aux critères

Réfléchissez aux critères de réussite pour votre cas d’utilisation avec Claude sur claude.ai.

Astuce : Déposez cette page dans le chat comme guide pour Claude !

Concevoir des évaluations

Apprenez à créer des ensembles de tests solides pour évaluer les performances de Claude par rapport à vos critères.

Conseils pour la réflexion approfondie Développer des cas de test

On this page

Élaborer des critères solides
Critères de réussite courants à considérer
Prochaines étapes

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

Définir vos critères de réussite

Élaborer des critères solides

Critères de réussite courants à considérer

Prochaines étapes

Réfléchir aux critères

Concevoir des évaluations

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

​Élaborer des critères solides

​Critères de réussite courants à considérer

​Prochaines étapes

Réfléchir aux critères

Concevoir des évaluations

Élaborer des critères solides

Critères de réussite courants à considérer

Prochaines étapes