Exemples de cas limites
Fidélité de tâche (analyse de sentiment) - évaluation de correspondance exacte
Cohérence (bot FAQ) - évaluation de similarité cosinus
Pertinence et cohérence (résumé) - évaluation ROUGE-L
Ton et style (service client) - échelle de Likert basée sur LLM
Préservation de la confidentialité (chatbot médical) - classification binaire basée sur LLM
Utilisation du contexte (assistant de conversation) - échelle ordinale basée sur LLM
output == golden_answer
key_phrase in output
Exemple : Notation basée sur LLM