Prompt-Leaks können sensible Informationen preisgeben, von denen Sie erwarten, dass sie in Ihrem Prompt “versteckt” sind. Obwohl keine Methode narrensicher ist, können die unten aufgeführten Strategien das Risiko erheblich reduzieren.

Bevor Sie versuchen, Prompt-Leaks zu reduzieren

Wir empfehlen, Leak-resistente Prompt-Engineering-Strategien nur dann anzuwenden, wenn es absolut notwendig ist. Versuche, Ihren Prompt Leak-sicher zu machen, können eine Komplexität hinzufügen, die die Leistung in anderen Teilen der Aufgabe beeinträchtigen kann, da die Komplexität der Gesamtaufgabe des LLM erhöht wird.

Wenn Sie sich für die Implementierung von Leak-resistenten Techniken entscheiden, testen Sie Ihre Prompts gründlich, um sicherzustellen, dass die zusätzliche Komplexität die Leistung des Modells oder die Qualität seiner Ausgaben nicht negativ beeinflusst.

Versuchen Sie zunächst Überwachungstechniken wie Output-Screening und Nachbearbeitung, um Fälle von Prompt-Leaks zu erkennen.

Strategien zur Reduzierung von Prompt-Leaks

  • Trennen Sie Kontext von Abfragen: Sie können versuchen, System-Prompts zu verwenden, um wichtige Informationen und Kontext von Benutzerabfragen zu isolieren. Sie können wichtige Anweisungen im User-Turn hervorheben und diese Anweisungen dann erneut betonen, indem Sie den Assistant-Turn vorfüllen.
  • Verwenden Sie Nachbearbeitung: Filtern Sie Claudes Ausgaben nach Schlüsselwörtern, die auf ein Leak hindeuten könnten. Zu den Techniken gehören die Verwendung regulärer Ausdrücke, Schlüsselwortfilterung oder andere Textverarbeitungsmethoden.
    Sie können auch ein promptes LLM verwenden, um Ausgaben auf nuanciertere Leaks zu filtern.
  • Vermeiden Sie unnötige proprietäre Details: Wenn Claude sie nicht benötigt, um die Aufgabe auszuführen, fügen Sie sie nicht ein. Zusätzlicher Inhalt lenkt Claude davon ab, sich auf “No Leak”-Anweisungen zu konzentrieren.
  • Regelmäßige Audits: Überprüfen Sie regelmäßig Ihre Prompts und Claudes Ausgaben auf potenzielle Leaks.

Denken Sie daran, dass es nicht nur darum geht, Leaks zu verhindern, sondern auch Claudes Leistung aufrechtzuerhalten. Eine übermäßig komplexe Leak-Prävention kann die Ergebnisse beeinträchtigen. Balance ist der Schlüssel.