Entwickeln Sie Testfälle zur Messung der LLM-Leistung gegen Ihre Erfolgskriterien.
Beispiel-Grenzfälle
Aufgabentreue (Sentimentanalyse) - Exakte Übereinstimmungsevaluierung
Konsistenz (FAQ-Bot) - Kosinus-Ähnlichkeitsevaluierung
Relevanz und Kohärenz (Zusammenfassung) - ROUGE-L-Evaluierung
Ton und Stil (Kundenservice) - LLM-basierte Likert-Skala
Datenschutzbewahrung (medizinischer Chatbot) - LLM-basierte binäre Klassifikation
Kontextnutzung (Gesprächsassistent) - LLM-basierte Ordinalskala
output == golden_answer
key_phrase in output
Beispiel: LLM-basierte Bewertung