Prompt-Leaks reduzieren
Prompt-Leaks können sensible Informationen preisgeben, die eigentlich in Ihrem Prompt “verborgen” bleiben sollten. Auch wenn keine Methode hundertprozentig sicher ist, können die folgenden Strategien das Risiko deutlich reduzieren.
Bevor Sie versuchen, Prompt-Leaks zu reduzieren
Wir empfehlen, leak-resistente Prompt-Engineering-Strategien nur dann einzusetzen, wenn dies unbedingt erforderlich ist. Versuche, Ihren Prompt leak-sicher zu machen, können eine Komplexität hinzufügen, die die Leistung in anderen Bereichen der Aufgabe beeinträchtigen kann, da die Gesamtaufgabe des LLM komplexer wird.
Wenn Sie sich für die Implementierung leak-resistenter Techniken entscheiden, testen Sie Ihre Prompts gründlich, um sicherzustellen, dass die zusätzliche Komplexität die Leistung des Modells oder die Qualität seiner Ausgaben nicht negativ beeinflusst.
Strategien zur Reduzierung von Prompt-Leaks
- Kontext von Anfragen trennen:
Sie können versuchen, System-Prompts zu verwenden, um wichtige Informationen und Kontext von Benutzeranfragen zu isolieren. Sie können wichtige Anweisungen im
User
-Teil betonen und diese Anweisungen dann durch Vorausfüllen desAssistant
-Teils erneut hervorheben.
- Nachbearbeitung verwenden: Filtern Sie Claudes Ausgaben nach Schlüsselwörtern, die auf ein Leak hinweisen könnten. Zu den Techniken gehören reguläre Ausdrücke, Keyword-Filterung oder andere Textverarbeitungsmethoden.
Sie können auch ein LLM mit Prompts verwenden, um Ausgaben auf subtilere Leaks zu filtern.
- Vermeiden Sie unnötige proprietäre Details: Wenn Claude sie nicht zur Ausführung der Aufgabe benötigt, fügen Sie sie nicht hinzu. Zusätzliche Inhalte lenken Claude von den “No-Leak”-Anweisungen ab.
- Regelmäßige Überprüfungen: Überprüfen Sie Ihre Prompts und Claudes Ausgaben regelmäßig auf potenzielle Leaks.
Denken Sie daran, dass das Ziel nicht nur die Verhinderung von Leaks ist, sondern auch die Aufrechterhaltung von Claudes Leistung. Eine zu komplexe Leak-Prävention kann die Ergebnisse verschlechtern. Ausgewogenheit ist der Schlüssel.
Was this page helpful?