Erstellen Sie starke empirische Bewertungen
Nach der Definition Ihrer Erfolgskriterien besteht der nächste Schritt darin, Bewertungen zu entwerfen, um die LLM-Leistung anhand dieser Kriterien zu messen. Dies ist ein entscheidender Teil des Prompt-Engineering-Zyklus.
Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln.
Aufbau von Bewertungen und Testfällen
Prinzipien für das Design von Bewertungen
- Aufgabenspezifisch sein: Entwerfen Sie Bewertungen, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Randfälle zu berücksichtigen!
- Nach Möglichkeit automatisieren: Strukturieren Sie Fragen so, dass eine automatische Bewertung möglich ist (z. B. Multiple-Choice, String-Übereinstimmung, Code-bewertet, LLM-bewertet).
- Volumen vor Qualität priorisieren: Mehr Fragen mit etwas geringerem Signal durch automatische Bewertung sind besser als weniger Fragen mit hochwertigen, von Menschen handverlesenen Bewertungen.
Beispielbewertungen
Bewertung von Evaluationen
Wenn Sie entscheiden, welche Methode Sie zur Bewertung von Evaluationen verwenden, wählen Sie die schnellste, zuverlässigste und skalierbarste Methode:
-
Codebasierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber auch weniger nuanciert für komplexere Beurteilungen, die weniger regelbasierte Strenge erfordern.
- Exakte Übereinstimmung:
output == golden_answer
- String-Übereinstimmung:
key_phrase in output
- Exakte Übereinstimmung:
-
Menschliche Bewertung: Am flexibelsten und von höchster Qualität, aber langsam und teuer. Wenn möglich vermeiden.
-
LLM-basierte Bewertung: Schnell und flexibel, skalierbar und für komplexe Beurteilungen geeignet. Testen Sie zuerst die Zuverlässigkeit und skalieren Sie dann.
Tipps für die LLM-basierte Bewertung
- Detaillierte, klare Bewertungsrichtlinien: “Die Antwort sollte immer ‘Acme Inc.’ im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‘falsch’ bewertet.”
Ein bestimmter Anwendungsfall oder sogar ein bestimmtes Erfolgskriterium für diesen Anwendungsfall erfordert möglicherweise mehrere Bewertungsrichtlinien für eine ganzheitliche Bewertung.
- Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur ‘richtig’ oder ‘falsch’ auszugeben oder auf einer Skala von 1-5 zu bewerten. Rein qualitative Bewertungen sind schwer schnell und in großem Umfang zu beurteilen.
- Ermutigen Sie zum Nachdenken: Bitten Sie das LLM, zuerst nachzudenken, bevor es eine Bewertungsnote festlegt, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere bei Aufgaben, die eine komplexe Beurteilung erfordern.