Verwendung des Evaluierungstools
Die Anthropic Console bietet ein Evaluierungstool, mit dem Sie Ihre Prompts unter verschiedenen Szenarien testen können.
Zugriff auf die Evaluierungsfunktion
So beginnen Sie mit dem Evaluierungstool:
- Öffnen Sie die Anthropic Console und navigieren Sie zum Prompt-Editor.
- Nach dem Erstellen Ihres Prompts suchen Sie nach dem Tab ‘Evaluieren’ am oberen Bildschirmrand.
Stellen Sie sicher, dass Ihr Prompt mindestens 1-2 dynamische Variablen mit der doppelten geschweiften Klammer-Syntax enthält: {{variable}}. Dies ist erforderlich für die Erstellung von Evaluierungstestsets.
Prompts generieren
Die Console bietet einen integrierten Prompt-Generator, der von Claude 3.7 Sonnet betrieben wird:
Klicken Sie auf 'Prompt generieren'
Durch Klicken auf das Hilfstool ‘Prompt generieren’ öffnet sich ein Modal-Fenster, in dem Sie Ihre Aufgabeninformationen eingeben können.
Beschreiben Sie Ihre Aufgabe
Beschreiben Sie Ihre gewünschte Aufgabe (z.B. “Eingehende Kundenservice-Anfragen triagieren”) mit so viel oder so wenig Detail wie Sie möchten. Je mehr Kontext Sie angeben, desto besser kann Claude den generierten Prompt auf Ihre spezifischen Bedürfnisse abstimmen.
Generieren Sie Ihren Prompt
Durch Klicken auf die orange ‘Prompt generieren’-Schaltfläche unten lässt Claude einen hochwertigen Prompt für Sie generieren. Sie können diese Prompts dann mithilfe des Evaluierungsbildschirms in der Console weiter verbessern.
Diese Funktion erleichtert das Erstellen von Prompts mit der geeigneten Variablensyntax für die Evaluierung.
Testfälle erstellen
Wenn Sie den Evaluierungsbildschirm aufrufen, haben Sie mehrere Möglichkeiten, Testfälle zu erstellen:
- Klicken Sie auf die Schaltfläche ’+ Zeile hinzufügen’ unten links, um manuell einen Fall hinzuzufügen.
- Verwenden Sie die Funktion ‘Testfall generieren’, damit Claude automatisch Testfälle für Sie generiert.
- Importieren Sie Testfälle aus einer CSV-Datei.
So verwenden Sie die Funktion ‘Testfall generieren’:
Klicken Sie auf 'Testfall generieren'
Claude wird für Sie Testfälle generieren, eine Zeile nach der anderen, jedes Mal wenn Sie auf die Schaltfläche klicken.
Generierungslogik bearbeiten (optional)
Sie können die Testfall-Generierungslogik auch bearbeiten, indem Sie auf den Pfeil-Dropdown rechts neben der Schaltfläche ‘Testfall generieren’ klicken und dann oben im sich öffnenden Variablenfenster auf ‘Generierungslogik anzeigen’ klicken. Möglicherweise müssen Sie oben rechts in diesem Fenster auf ‘Generieren’ klicken, um die anfängliche Generierungslogik zu erstellen.
Durch die Bearbeitung können Sie die von Claude generierten Testfälle mit größerer Präzision und Spezifität anpassen und verfeinern.
Hier ist ein Beispiel für einen ausgefüllten Evaluierungsbildschirm mit mehreren Testfällen:
Wenn Sie Ihren ursprünglichen Prompttext aktualisieren, können Sie die gesamte Evaluierungssuite mit dem neuen Prompt erneut ausführen, um zu sehen, wie sich Änderungen auf die Leistung über alle Testfälle hinweg auswirken.
Tipps für effektive Evaluierung
Verwenden Sie das Hilfstool ‘Prompt generieren’ in der Console, um schnell Prompts mit der geeigneten Variablensyntax für die Evaluierung zu erstellen.
Ergebnisse verstehen und vergleichen
Das Evaluierungstool bietet mehrere Funktionen, die Ihnen helfen, Ihre Prompts zu verfeinern:
- Nebeneinander-Vergleich: Vergleichen Sie die Ausgaben von zwei oder mehr Prompts, um die Auswirkungen Ihrer Änderungen schnell zu sehen.
- Qualitätsbewertung: Bewerten Sie die Antwortqualität auf einer 5-Punkte-Skala, um Verbesserungen der Antwortqualität pro Prompt zu verfolgen.
- Prompt-Versionierung: Erstellen Sie neue Versionen Ihres Prompts und führen Sie die Testsuite erneut aus, um schnell zu iterieren und die Ergebnisse zu verbessern.
Durch die Überprüfung der Ergebnisse über Testfälle hinweg und den Vergleich verschiedener Prompt-Versionen können Sie Muster erkennen und effizienter fundierte Anpassungen an Ihrem Prompt vornehmen.
Beginnen Sie noch heute mit der Evaluierung Ihrer Prompts, um robustere KI-Anwendungen mit Claude zu erstellen!
Was this page helpful?