Erstellen Sie starke empirische Evaluierungen
Nach der Definition Ihrer Erfolgskriterien ist der nächste Schritt die Entwicklung von Evaluierungen, um die LLM-Leistung anhand dieser Kriterien zu messen. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.
Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln können.
Aufbau von Evaluierungen und Testfällen
Prinzipien der Evaluierungsgestaltung
- Aufgabenspezifisch sein: Entwickeln Sie Evaluierungen, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Randfälle zu berücksichtigen!
- Wenn möglich automatisieren: Strukturieren Sie Fragen so, dass eine automatisierte Bewertung möglich ist (z.B. Multiple-Choice, String-Übereinstimmung, Code-bewertete, LLM-bewertete).
- Menge über Qualität priorisieren: Mehr Fragen mit leicht niedrigerem Signal bei automatisierter Bewertung sind besser als weniger Fragen mit hochwertigen, manuell bewerteten Evaluierungen.
Beispiele für Evaluierungen
Bewertung von Evaluierungen
Bei der Entscheidung, welche Methode zur Bewertung von Evaluierungen verwendet werden soll, wählen Sie die schnellste, zuverlässigste und am besten skalierbare Methode:
-
Code-basierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber mangelt auch an Nuancen für komplexere Beurteilungen, die weniger regelbasierte Rigidität erfordern.
- Exakte Übereinstimmung:
output == golden_answer
- String-Übereinstimmung:
key_phrase in output
- Exakte Übereinstimmung:
-
Menschliche Bewertung: Am flexibelsten und qualitativ hochwertigsten, aber langsam und teuer. Wenn möglich vermeiden.
-
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Zuerst auf Zuverlässigkeit testen, dann skalieren.
Tipps für LLM-basierte Bewertung
- Detaillierte, klare Rubriken haben: “Die Antwort sollte immer ‘Acme Inc.’ im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‘falsch’ bewertet.”
Ein bestimmter Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Bewertung erfordern.
- Empirisch oder spezifisch: Zum Beispiel, weisen Sie das LLM an, nur ‘richtig’ oder ‘falsch’ auszugeben, oder auf einer Skala von 1-5 zu bewerten. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu beurteilen.
- Ermutigen Sie zum Nachdenken: Bitten Sie das LLM, erst nachzudenken, bevor es eine Bewertungspunktzahl festlegt, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, besonders bei Aufgaben, die komplexe Beurteilung erfordern.