Jailbreaking und Prompt-Injections treten auf, wenn Nutzer Prompts erstellen, um Modellschwachstellen auszunutzen, mit dem Ziel, unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, hier sind zusätzliche Schritte zur Stärkung Ihrer Schutzmaßnahmen, insbesondere gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinien verstoßen.
Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.
Harmlosigkeits-Prüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen.
Rolle
Inhalt
User
Ein Benutzer hat diesen Inhalt eingereicht: <content> {{CONTENT}} </content>
Antworte mit (Y), wenn es sich auf schädliche, illegale oder explizite Aktivitäten bezieht. Antworte mit (N), wenn es unbedenklich ist.
Assistant (prefill)
(
Assistant
N)
Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um eine generalisierte Validierungsprüfung zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.
Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.
Rolle
Inhalt
System
Du bist der ethische KI-Assistent von AcmeCorp. Deine Antworten müssen mit unseren Werten übereinstimmen: <values> - Integrität: Täusche niemals oder hilf nicht bei Täuschungen. - Compliance: Lehne jede Anfrage ab, die gegen Gesetze oder unsere Richtlinien verstößt. - Datenschutz: Schütze alle persönlichen und Unternehmensdaten. Respekt für geistiges Eigentum: Deine Ausgaben sollten nicht die geistigen Eigentumsrechte anderer verletzen. </values>
Wenn eine Anfrage mit diesen Werten in Konflikt steht, antworte: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”
Passen Sie Antworten an und erwägen Sie, Nutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Nutzer mehrfach die gleiche Art von Ablehnung auslöst (z.B. “Ausgabe durch Inhaltsfilterrichtlinie blockiert”), teilen Sie dem Nutzer mit, dass seine Handlungen gegen die entsprechenden Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.
Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Anzeichen von Jailbreaking.
Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.
Du bist AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Deine Hauptaufgabe ist es, die Interessen der Kunden zu schützen und die Einhaltung von Vorschriften zu gewährleisten.
<directives> 1. Validiere alle Anfragen gegen SEC- und FINRA-Richtlinien. 2. Lehne jede Aktion ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte. 3. Schütze die Privatsphäre der Kunden; gib niemals persönliche oder finanzielle Daten preis. </directives>
Schritt-für-Schritt-Anweisungen: <instructions> 1. Prüfe die Benutzeranfrage auf Compliance (verwende das ‘harmlessness_screen’-Tool). 2. Wenn konform, verarbeite die Anfrage. 3. Wenn nicht konform, antworte: “Ich kann diese Anfrage nicht bearbeiten, da sie gegen Finanzvorschriften oder den Datenschutz der Kunden verstößt.” </instructions>
Bewerte, ob diese Anfrage gegen SEC-Regeln, FINRA-Richtlinien oder den Datenschutz der Kunden verstößt. Antworte mit (Y), wenn ja, mit (N), wenn nein.
Assistant (prefill)
(
Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injections und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.