Starke empirische Evaluierungen erstellen
Entwickeln Sie Testfälle zur Messung der LLM-Leistung gegen Ihre Erfolgskriterien.
Nach der Definition Ihrer Erfolgskriterien ist der nächste Schritt die Gestaltung von Evaluierungen zur Messung der LLM-Leistung gegen diese Kriterien. Dies ist ein wichtiger Teil des Prompt-Engineering-Zyklus.
Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln.
Evals und Testfälle erstellen
Eval-Design-Prinzipien
- Aufgabenspezifisch sein: Entwerfen Sie Evals, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Grenzfälle zu berücksichtigen!
- Wenn möglich automatisieren: Strukturieren Sie Fragen so, dass automatisierte Bewertung möglich ist (z.B. Multiple-Choice, String-Match, Code-bewertet, LLM-bewertet).
- Volumen über Qualität priorisieren: Mehr Fragen mit etwas niedrigerem Signal bei automatisierter Bewertung ist besser als weniger Fragen mit hochwertigen manuell bewerteten Evals.
Beispiel-Evals
Evals bewerten
Bei der Entscheidung, welche Methode zur Bewertung von Evals verwendet werden soll, wählen Sie die schnellste, zuverlässigste, skalierbarste Methode:
-
Code-basierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber fehlt auch Nuancen für komplexere Beurteilungen, die weniger regelbasierte Starrheit erfordern.
- Exakte Übereinstimmung:
output == golden_answer
- String-Übereinstimmung:
key_phrase in output
- Exakte Übereinstimmung:
-
Menschliche Bewertung: Am flexibelsten und hochwertigsten, aber langsam und teuer. Wenn möglich vermeiden.
-
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und geeignet für komplexe Beurteilungen. Zuerst auf Zuverlässigkeit testen, dann skalieren.
Tipps für LLM-basierte Bewertung
- Detaillierte, klare Rubriken haben: “Die Antwort sollte immer ‘Acme Inc.’ im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‘falsch’ bewertet.”
Ein gegebener Anwendungsfall oder sogar ein spezifisches Erfolgskriterium für diesen Anwendungsfall könnte mehrere Rubriken für eine ganzheitliche Bewertung erfordern.
- Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur ‘korrekt’ oder ‘falsch’ auszugeben oder auf einer Skala von 1-5 zu beurteilen. Rein qualitative Bewertungen sind schwer schnell und im großen Maßstab zu bewerten.
- Begründung fördern: Bitten Sie das LLM, zuerst zu denken, bevor es eine Bewertungspunktzahl entscheidet, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere für Aufgaben, die komplexe Beurteilungen erfordern.