Critères de sécurité | |
---|---|
Mauvais | Sorties sécurisées |
Bon | Moins de 0,1 % des sorties sur 10 000 essais signalées pour toxicité par notre filtre de contenu. |
Exemples de métriques et méthodes de mesure
Exemple de critères de fidélité pour l'analyse de sentiment
Critères | |
---|---|
Mauvais | Le modèle doit bien classifier les sentiments |
Bon | Notre modèle d’analyse de sentiment doit atteindre un score F1 d’au moins 0,85 (Mesurable, Spécifique) sur un ensemble de test indépendant* de 10 000 tweets divers (Pertinent), ce qui représente une amélioration de 5 % par rapport à notre référence actuelle (Atteignable). |
Fidélité à la tâche
Cohérence
Pertinence et cohérence
Ton et style
Préservation de la confidentialité
Utilisation du contexte
Latence
Prix
Exemple de critères multidimensionnels pour l'analyse de sentiment
Critères | |
---|---|
Mauvais | Le modèle doit bien classifier les sentiments |
Bon | Sur un ensemble de test indépendant de 10 000 tweets divers, notre modèle d’analyse de sentiment doit atteindre : - un score F1 d’au moins 0,85 - 99,5 % des sorties sont non toxiques - 90 % des erreurs causeraient un inconvénient, pas une erreur grave* - 95 % des temps de réponse < 200 ms |