Nach der Definition Ihrer Erfolgskriterien besteht der nächste Schritt darin, Bewertungen zu entwerfen, um die LLM-Leistung anhand dieser Kriterien zu messen. Dies ist ein entscheidender Teil des Prompt-Engineering-Zyklus.

Dieser Leitfaden konzentriert sich darauf, wie Sie Ihre Testfälle entwickeln.

Aufbau von Bewertungen und Testfällen

Prinzipien für das Design von Bewertungen

  1. Aufgabenspezifisch sein: Entwerfen Sie Bewertungen, die Ihre reale Aufgabenverteilung widerspiegeln. Vergessen Sie nicht, Randfälle zu berücksichtigen!
  2. Nach Möglichkeit automatisieren: Strukturieren Sie Fragen so, dass eine automatische Bewertung möglich ist (z. B. Multiple-Choice, String-Übereinstimmung, Code-bewertet, LLM-bewertet).
  3. Volumen vor Qualität priorisieren: Mehr Fragen mit etwas geringerem Signal durch automatische Bewertung sind besser als weniger Fragen mit hochwertigen, von Menschen handverlesenen Bewertungen.

Beispielbewertungen

Hunderte von Testfällen von Hand zu schreiben, kann schwierig sein! Lassen Sie sich von Claude helfen, weitere aus einem Basissatz von Beispieltestfällen zu generieren.
Wenn Sie nicht wissen, welche Bewertungsmethoden für Ihre Erfolgskriterien nützlich sein könnten, können Sie auch mit Claude brainstormen!

Bewertung von Evaluationen

Wenn Sie entscheiden, welche Methode Sie zur Bewertung von Evaluationen verwenden, wählen Sie die schnellste, zuverlässigste und skalierbarste Methode:

  1. Codebasierte Bewertung: Am schnellsten und zuverlässigsten, extrem skalierbar, aber auch weniger nuanciert für komplexere Beurteilungen, die weniger regelbasierte Strenge erfordern.

    • Exakte Übereinstimmung: output == golden_answer
    • String-Übereinstimmung: key_phrase in output
  2. Menschliche Bewertung: Am flexibelsten und von höchster Qualität, aber langsam und teuer. Wenn möglich vermeiden.

  3. LLM-basierte Bewertung: Schnell und flexibel, skalierbar und für komplexe Beurteilungen geeignet. Testen Sie zuerst die Zuverlässigkeit und skalieren Sie dann.

Tipps für die LLM-basierte Bewertung

  • Detaillierte, klare Bewertungsrichtlinien: “Die Antwort sollte immer ‘Acme Inc.’ im ersten Satz erwähnen. Wenn nicht, wird die Antwort automatisch als ‘falsch’ bewertet.”
    Ein bestimmter Anwendungsfall oder sogar ein bestimmtes Erfolgskriterium für diesen Anwendungsfall erfordert möglicherweise mehrere Bewertungsrichtlinien für eine ganzheitliche Bewertung.
  • Empirisch oder spezifisch: Weisen Sie das LLM beispielsweise an, nur ‘richtig’ oder ‘falsch’ auszugeben oder auf einer Skala von 1-5 zu bewerten. Rein qualitative Bewertungen sind schwer schnell und in großem Umfang zu beurteilen.
  • Ermutigen Sie zum Nachdenken: Bitten Sie das LLM, zuerst nachzudenken, bevor es eine Bewertungsnote festlegt, und verwerfen Sie dann die Begründung. Dies erhöht die Bewertungsleistung, insbesondere bei Aufgaben, die eine komplexe Beurteilung erfordern.

Nächste Schritte