Verwendung des Evaluierungstools

Zugriff auf die Evaluierungsfunktion

Um mit dem Evaluierungstool zu beginnen:

Öffnen Sie die Anthropic Console und navigieren Sie zum Prompt-Editor.
Nachdem Sie Ihren Prompt erstellt haben, suchen Sie nach dem Tab “Evaluate” am oberen Bildschirmrand.

Stellen Sie sicher, dass Ihr Prompt mindestens 1-2 dynamische Variablen mit der doppelten geschweiften Klammer-Syntax enthält: {{variable}}. Dies ist erforderlich, um Evaluierungs-Testsets zu erstellen.

Generieren von Prompts

Die Console bietet einen integrierten Prompt-Generator, der von Claude Opus 4 unterstützt wird:

Klicken Sie auf 'Generate Prompt'

Durch Klicken auf das Hilfstool ‘Generate Prompt’ öffnet sich ein Modal, in dem Sie Ihre Aufgabeninformationen eingeben können.

Beschreiben Sie Ihre Aufgabe

Beschreiben Sie Ihre gewünschte Aufgabe (z.B. “Eingehende Kundenserviceanfragen triagieren”) mit so viel oder so wenig Detail, wie Sie möchten. Je mehr Kontext Sie angeben, desto besser kann Claude seinen generierten Prompt auf Ihre spezifischen Bedürfnisse zuschneiden.

Generieren Sie Ihren Prompt

Durch Klicken auf die orangefarbene Schaltfläche ‘Generate Prompt’ am unteren Rand wird Claude einen hochwertigen Prompt für Sie generieren. Sie können diese Prompts dann mit dem Evaluierungsbildschirm in der Console weiter verbessern.

Diese Funktion erleichtert das Erstellen von Prompts mit der geeigneten Variablensyntax für die Evaluierung.

Erstellen von Testfällen

Wenn Sie auf den Evaluierungsbildschirm zugreifen, haben Sie mehrere Möglichkeiten, Testfälle zu erstellen:

Klicken Sie auf die Schaltfläche ’+ Add Row’ unten links, um manuell einen Fall hinzuzufügen.
Verwenden Sie die Funktion ‘Generate Test Case’, damit Claude automatisch Testfälle für Sie generiert.
Importieren Sie Testfälle aus einer CSV-Datei.

So verwenden Sie die Funktion ‘Generate Test Case’:

Klicken Sie auf 'Generate Test Case'

Claude wird Testfälle für Sie generieren, eine Zeile nach der anderen, jedes Mal wenn Sie auf die Schaltfläche klicken.

Bearbeiten Sie die Generierungslogik (optional)

Sie können auch die Testfall-Generierungslogik bearbeiten, indem Sie auf den Pfeil-Dropdown rechts neben der Schaltfläche ‘Generate Test Case’ und dann auf ‘Show generation logic’ oben im Variablenfenster klicken, das sich öffnet. Möglicherweise müssen Sie auf ‘Generate’ oben rechts in diesem Fenster klicken, um die anfängliche Generierungslogik zu füllen.

Durch die Bearbeitung können Sie die von Claude generierten Testfälle mit größerer Präzision und Spezifität anpassen und verfeinern.

Hier ist ein Beispiel für einen gefüllten Evaluierungsbildschirm mit mehreren Testfällen:

Wenn Sie Ihren ursprünglichen Prompttext aktualisieren, können Sie die gesamte Evaluierungssuite mit dem neuen Prompt erneut ausführen, um zu sehen, wie sich Änderungen auf die Leistung in allen Testfällen auswirken.

Tipps für effektive Evaluierung

Prompt-Struktur für die Evaluierung

Um das Evaluierungstool optimal zu nutzen, strukturieren Sie Ihre Prompts mit klaren Ein- und Ausgabeformaten. Zum Beispiel:

In dieser Aufgabe werden Sie eine niedliche, einzeilige Geschichte generieren, die zwei Elemente enthält: eine Farbe und einen Klang.
Die in die Geschichte einzubeziehende Farbe ist:
<color>
{{COLOR}}
</color>
Der in die Geschichte einzubeziehende Klang ist:
<sound>
{{SOUND}}
</sound>
Hier sind die Schritte zur Generierung der Geschichte:
1. Denken Sie an ein Objekt, Tier oder eine Szene, die üblicherweise mit der angegebenen Farbe assoziiert wird. Wenn die Farbe zum Beispiel "blau" ist, könnten Sie an den Himmel, den Ozean oder einen Blaumeisen denken.
2. Stellen Sie sich eine einfache Handlung, ein Ereignis oder eine Szene vor, die das farbige Objekt/Tier/die Szene, die Sie identifiziert haben, und den angegebenen Klang beinhaltet. Wenn die Farbe "blau" und der Klang "Pfeifen" ist, könnten Sie sich zum Beispiel eine Blaumeise vorstellen, die eine Melodie pfeift.
3. Beschreiben Sie die Handlung, das Ereignis oder die Szene, die Sie sich vorgestellt haben, in einem einzigen, prägnanten Satz. Konzentrieren Sie sich darauf, den Satz niedlich, anschaulich und fantasievoll zu gestalten. Zum Beispiel: "Eine fröhliche Blaumeise pfiff eine muntere Melodie, während sie durch den azurblauen Himmel schwebte."
Bitte beschränken Sie Ihre Geschichte auf nur einen Satz. Versuchen Sie, diesen Satz so charmant und ansprechend wie möglich zu gestalten, während Sie die gegebene Farbe und den Klang natürlich einbauen.
Schreiben Sie Ihre fertige einzeilige Geschichte innerhalb von <story> Tags.

Diese Struktur macht es einfach, Eingaben ({{COLOR}} und {{SOUND}}) zu variieren und Ausgaben konsistent zu bewerten.

Verwenden Sie das Hilfstool ‘Generate a prompt’ in der Console, um schnell Prompts mit der geeigneten Variablensyntax für die Evaluierung zu erstellen.

Ergebnisse verstehen und vergleichen

Das Evaluierungstool bietet mehrere Funktionen, die Ihnen helfen, Ihre Prompts zu verfeinern:

Nebeneinander-Vergleich: Vergleichen Sie die Ausgaben von zwei oder mehr Prompts, um die Auswirkungen Ihrer Änderungen schnell zu sehen.
Qualitätsbewertung: Bewerten Sie die Antwortqualität auf einer 5-Punkte-Skala, um Verbesserungen der Antwortqualität pro Prompt zu verfolgen.
Prompt-Versionierung: Erstellen Sie neue Versionen Ihres Prompts und führen Sie die Testsuite erneut aus, um schnell zu iterieren und Ergebnisse zu verbessern.

Durch die Überprüfung der Ergebnisse über Testfälle hinweg und den Vergleich verschiedener Prompt-Versionen können Sie Muster erkennen und fundierte Anpassungen an Ihrem Prompt effizienter vornehmen.

Beginnen Sie noch heute mit der Evaluierung Ihrer Prompts, um robustere KI-Anwendungen mit Claude zu erstellen!

Testfälle entwickeln Latenz reduzieren

On this page

Zugriff auf die Evaluierungsfunktion
Generieren von Prompts
Erstellen von Testfällen
Tipps für effektive Evaluierung
Ergebnisse verstehen und vergleichen

Erste Schritte

Modelle & Preise

Erfahren Sie mehr über Claude

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

Verwendung des Evaluierungstools

Zugriff auf die Evaluierungsfunktion

Generieren von Prompts

Erstellen von Testfällen

Tipps für effektive Evaluierung

Ergebnisse verstehen und vergleichen

Erste Schritte

Modelle & Preise

Erfahren Sie mehr über Claude

Funktionen

Werkzeuge

Model Context Protocol (MCP)

Anwendungsfälle

Prompt Engineering

Testen & bewerten

Schutzmaßnahmen verstärken

Rechtszentrum

​Zugriff auf die Evaluierungsfunktion

​Generieren von Prompts

​Erstellen von Testfällen

​Tipps für effektive Evaluierung

​Ergebnisse verstehen und vergleichen

Zugriff auf die Evaluierungsfunktion

Generieren von Prompts

Erstellen von Testfällen

Tipps für effektive Evaluierung

Ergebnisse verstehen und vergleichen