Schauen Sie sich unser Evals-Kochbuch an, um direkt zu den Code-Beispielen zu gelangen.

Die Optimierung von Claude, um Ihnen die höchstmögliche Genauigkeit bei einer Aufgabe zu bieten, ist eine empirische Wissenschaft und ein Prozess der kontinuierlichen Verbesserung. Egal, ob Sie versuchen festzustellen, ob eine Änderung an Ihrem Prompt die Leistung von Claude verbessert hat, verschiedene Claude-Modelle gegeneinander testen oder beurteilen, ob Ihr Anwendungsfall für die Produktion bereit ist, ein gut konzipiertes Bewertungssystem ist entscheidend für den Erfolg.

In diesem Leitfaden führen wir Sie durch den Lebenszyklus der Prompt-Entwicklung, die verschiedenen Arten von Bewertungen (Evals), deren Vor- und Nachteile und geben Ihnen einige Richtlinien, wie Sie die beste Bewertung für Ihren Anwendungsfall auswählen können.


Wie man Evals verwendet

Evals sollten ein integraler Bestandteil Ihres gesamten Produktionslebenszyklus sein, wenn Sie mit LLMs arbeiten. Sie bieten ein quantitatives Leistungsmaß, mit dem Sie den Fortschritt verfolgen, Probleme erkennen und datengestützte Entscheidungen treffen können. Hier ist, wie Evals in die verschiedenen Phasen des Produktionslebenszyklus passen:

  1. Prompt-Engineering: Der Prompt-Engineering-Prozess sollte mit dem Aufbau eines strengen Satzes von Evals beginnen, nicht mit dem Schreiben eines Prompts. Diese Evals dienen als Grundlage für die Messung der Effektivität Ihrer Prompts und helfen Ihnen, sie im Laufe der Zeit zu iterieren und zu verbessern.
  2. Entwicklung: Wenn Sie Ihre Anwendung oder Ihren Workflow mit Claude entwickeln, verwenden Sie die Evals, die Sie während der Prompt-Engineering-Phase entworfen haben, um regelmäßig die Leistung Ihrer Prompts zu testen, auch wenn sich die Prompts selbst nicht geändert haben. Teile des Workflows außerhalb und unterhalb des Prompts können unbeabsichtigt die Modellleistung beeinflussen. Dies hilft Ihnen, Probleme frühzeitig zu erkennen und sicherzustellen, dass Ihre Workflows wie erwartet funktionieren.
  3. Abschließende Tests: Bevor Sie Ihre Anwendung oder Ihren Workflow in Produktion bringen, erstellen Sie mindestens einen zusätzlichen Satz von Evals, den Sie während der Entwicklungsphase nicht verwendet haben. Dieser zurückgehaltene Satz von Evals hilft Ihnen, die tatsächliche Leistung Ihrer Prompts zu beurteilen und sicherzustellen, dass sie nicht an die während der Entwicklung verwendeten Evals überangepasst wurden.
  4. Produktion: Sobald Ihre Anwendung oder Ihr Workflow in Produktion ist, verwenden Sie weiterhin Evals, um die Leistung zu überwachen und mögliche Probleme zu identifizieren. Sie können auch Evals verwenden, um die Leistung verschiedener Claude-Modelle oder Versionen Ihrer Prompts zu vergleichen und datengestützte Entscheidungen über Updates und Verbesserungen zu treffen.

Durch die Integration von Evals in den gesamten Produktionslebenszyklus können Sie sicherstellen, dass Ihre Prompts optimal funktionieren und Ihre Anwendung oder Ihr Workflow die bestmöglichen Ergebnisse liefert.


Teile eines Evals

Evals haben typischerweise vier Teile:

  1. Eingabe-Prompt: Der Prompt, der dem Modell zugeführt wird. Claude generiert basierend auf diesem Prompt eine Vervollständigung (auch Ausgabe genannt). Oft enthält die Eingabespalte beim Entwerfen von Evals eine Reihe von variablen Eingaben, die zum Testzeitpunkt in eine Prompt-Vorlage eingespeist werden.
  2. Ausgabe: Der Text, der durch die Ausführung des Eingabe-Prompts durch das zu bewertende Modell generiert wird.
  3. Goldene Antwort: Die richtige Antwort, mit der die Modellausgabe verglichen wird. Die goldene Antwort könnte eine obligatorische exakte Übereinstimmung oder ein Beispiel für eine perfekte Antwort sein, die einem Bewerter (Mensch oder LLM) einen Vergleichspunkt für die Bewertung geben soll.
  4. Punktzahl: Ein numerischer Wert, der von einer der unten diskutierten Bewertungsmethoden erzeugt wird und darstellt, wie gut das Modell bei der Frage abgeschnitten hat.

Eval-Bewertungsmethoden

Es gibt zwei Aspekte von Evals, die zeitaufwändig und teuer sein können: das Schreiben der Fragen und der goldenen Antwortpaare sowie die Bewertung. Während das Schreiben von Fragen und goldenen Antworten in der Regel ein einmaliger fester Kostenfaktor ist, fallen die Kosten für die Bewertung jedes Mal an, wenn Sie Ihr Eval erneut ausführen, was Sie wahrscheinlich häufig tun werden. Daher sollte das Erstellen von Evals, die schnell und kostengünstig bewertet werden können, im Mittelpunkt Ihrer Designentscheidungen stehen.

Es gibt drei gängige Möglichkeiten, Evals zu bewerten:

  1. Codebasierte Bewertung: Dies beinhaltet die Verwendung von Standardcode (hauptsächlich String-Matching und reguläre Ausdrücke), um die Ausgaben des Modells zu bewerten. Häufige Versionen sind die Überprüfung auf eine exakte Übereinstimmung mit einer Antwort oder die Überprüfung, ob eine Zeichenfolge einige Schlüsselphrasen enthält. Dies ist die beste Bewertungsmethode, wenn Sie ein Eval entwerfen können, das dies zulässt, da sie schnell und sehr zuverlässig ist. Viele Bewertungen lassen diese Art der Bewertung jedoch nicht zu.
  2. Menschliche Bewertung: Ein Mensch sieht sich die vom Modell generierte Antwort an, vergleicht sie mit der goldenen Antwort und vergibt eine Punktzahl. Dies ist die leistungsfähigste Bewertungsmethode, da sie für fast jede Aufgabe verwendet werden kann, aber sie ist auch unglaublich langsam und teuer, insbesondere wenn Sie ein großes Eval erstellt haben. Sie sollten nach Möglichkeit versuchen, Evals zu vermeiden, die eine menschliche Bewertung erfordern.
  3. Modellbasierte Bewertung: Claude ist sehr gut in der Lage, sich selbst zu bewerten, und kann zur Bewertung einer Vielzahl von Aufgaben verwendet werden, die früher möglicherweise Menschen erfordert hätten, wie z. B. die Analyse des Tons in kreativen Texten oder die Genauigkeit bei der Beantwortung von Fragen in freier Form. Sie können dies tun, indem Sie einen Bewertungsprompt für Claude schreiben.

Arten von Bewertungen

Es gibt mehrere Arten von Bewertungen, mit denen Sie die Leistung von Claude bei einer Aufgabe messen können. Jede Art hat ihre eigenen Stärken und Schwächen.

Eval-TypBeschreibungVorteileNachteile
Multiple-Choice-Frage (MCQ)Geschlossene Fragen mit mehreren Antworten, von denen mindestens eine richtig ist- Einfach zu automatisieren- Bewertet allgemeines Wissen zu einem Thema- Klarer Antwortschlüssel- Einfach zu erkennen, wie eine genaue Antwort aussieht- Mögliches Training-Leakage, wenn der Test öffentlich ist- Begrenzt bei der Bewertung komplexerer oder offenerer Aufgaben
Exakte Übereinstimmung (EM)Prüft, ob die Antwort des Modells genau die gleiche Zeichenfolge ist wie die richtige Antwort- Einfach zu automatisieren- Hohe Präzision bei der Bewertung spezifischer Kenntnisse oder Aufgaben- Einfach zu erkennen, wie eine genaue Antwort aussieht- Begrenzt bei der Bewertung komplexerer oder offenerer Aufgaben- Erfasst möglicherweise keine Variationen in korrekten Antworten
String-ÜbereinstimmungPrüft, ob die Antwort des Modells die Antwortzeichenfolge enthält- Einfach zu automatisieren- Bewertet das Vorhandensein spezifischer Informationen in der Ausgabe des Modells- Erfasst möglicherweise nicht den vollständigen Kontext oder die Bedeutung der Antwort des Modells- Kann zu falsch positiven oder negativen Ergebnissen führen
Offene Antwort (OA)Offene Fragen, die mehrere mögliche Lösungen haben können oder mehrstufige Prozesse zur Bewertung erfordern- Hervorragend zur Bewertung von fortgeschrittenem Wissen, implizitem Wissen oder qualitativer offener Leistung- Kann von Menschen oder Modellen bewertet werden- Schwieriger zu automatisieren- Erfordert einen klaren Bewertungsmaßstab- Modellbasierte Bewertung kann weniger genau sein als menschliche Bewertung

Bewährte Verfahren für die Gestaltung von Evals

Beachten Sie bei der Gestaltung von Evals für Ihren spezifischen Anwendungsfall die folgenden bewährten Verfahren:

  1. Aufgabenspezifische Evals: Machen Sie Ihre Evals so spezifisch wie möglich für Ihre Aufgabe und versuchen Sie, dass die Verteilung in Ihrem Eval die reale Verteilung von Fragen und Fragenschwierigkeiten repräsentiert.
  2. Testen Sie die modellbasierte Bewertung: Der einzige Weg, um herauszufinden, ob ein modellbasierter Bewerter Ihre Aufgabe gut bewerten kann, besteht darin, es auszuprobieren und einige Beispiele zu lesen, um zu sehen, ob Ihre Aufgabe ein guter Kandidat ist.
  3. Automatisieren Sie, wenn möglich: Oft kann ein cleveres Design ein Eval automatisierbar machen. Versuchen Sie, Fragen so zu strukturieren, dass eine automatisierte Bewertung möglich ist und gleichzeitig die Aufgabe treu bleibt. Das Umformatieren von Fragen in Multiple-Choice-Fragen ist eine gängige Taktik.
  4. Priorisieren Sie Volumen vor Qualität: Im Allgemeinen ist ein höheres Volumen und eine geringere Qualität der Fragen einem sehr geringen Volumen mit hoher Qualität vorzuziehen.
  5. Verwenden Sie das Evals-Kochbuch: Unser Evals-Kochbuch bietet implementierte Beispiele für verschiedene Arten von menschen- und modellbasierten Evals, einschließlich Anleitungen und Code, den Sie kopieren können.

Indem Sie diese bewährten Verfahren befolgen und den geeigneten Eval-Typ für Ihren Anwendungsfall auswählen, können Sie die Leistung von Claude effektiv messen und datengestützte Entscheidungen zur Verbesserung Ihrer Prompts und Workflows treffen.