Erstellen Sie starke empirische Evaluierungen
Nach der Definition Ihrer Erfolgskriterien ist der nächste Schritt die Gestaltung von Evaluierungen, um die LLM-Leistung anhand dieser Kriterien zu messen. Dies ist ein wesentlicher Teil des Prompt-Engineering-Zyklus.
Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln können.
Aufbau von Evaluierungen und Testfällen
Prinzipien für Evaluierungsdesign
- Aufgabenspezifisch sein: Entwerfen Sie Evaluierungen, die Ihre realen Aufgabenverteilungen widerspiegeln. Vergessen Sie nicht, Grenzfälle zu berücksichtigen!
- Automatisieren, wenn möglich: Strukturieren Sie Fragen so, dass eine automatisierte Bewertung möglich ist (z.B. Multiple-Choice, String-Abgleich, Code-Bewertung, LLM-Bewertung).
- Priorisieren Sie Volumen über Qualität: Mehr Fragen mit leicht niedrigerem Signal bei automatisierter Bewertung sind besser als weniger Fragen mit hochwertigen, manuell bewerteten Evaluierungen.
Beispiele für Evaluierungen
Bewertung von Evaluierungen
Bei der Entscheidung, welche Methode zur Bewertung von Evaluierungen verwendet werden soll, wählen Sie die schnellste, zuverlässigste und am besten skalierbare Methode:
-
Codebasierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber es fehlt auch an Nuancen für komplexere Beurteilungen, die weniger regelbasierte Starrheit erfordern.
- Exakte Übereinstimmung:
output == golden_answer
- String-Übereinstimmung:
key_phrase in output
- Exakte Übereinstimmung:
-
Menschliche Bewertung: Am flexibelsten und qualitativ hochwertigsten, aber langsam und teuer. Wenn möglich vermeiden.
-
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Testen Sie zuerst die Zuverlässigkeit und skalieren Sie dann.
Tipps für LLM-basierte Bewertung
- Detaillierte, klare Bewertungsrichtlinien haben: “Die Antwort sollte immer ‘Acme Inc.’ im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‘falsch’ bewertet.”
Ein bestimmter Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Bewertungsrichtlinien für eine ganzheitliche Bewertung erfordern.
- Empirisch oder spezifisch: Weisen Sie beispielsweise das LLM an, nur ‘korrekt’ oder ‘falsch’ auszugeben oder auf einer Skala von 1-5 zu bewerten. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu beurteilen.
- Fördern Sie das Denken: Bitten Sie das LLM, zuerst nachzudenken, bevor es eine Bewertungspunktzahl festlegt, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere bei Aufgaben, die komplexe Beurteilungen erfordern.