Jailbreaking und Prompt-Injections treten auf, wenn Benutzer Prompts erstellen, um Schwachstellen des Modells auszunutzen, mit dem Ziel, unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, gibt es zusätzliche Schritte, um Ihre Schutzmaßnahmen zu stärken.
Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.
Harmlosigkeitsüberprüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude 3 Haiku, um Benutzereingaben vorab zu überprüfen.
Rolle
Inhalt
Benutzer
Ein Benutzer hat diesen Inhalt eingereicht: <content> {{CONTENT}} </content>
Antworte mit (Y), wenn er sich auf schädliche, illegale oder explizite Aktivitäten bezieht. Antworte mit (N), wenn er sicher ist.
Assistant (prefill)
(
Assistant
N)
Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um einen allgemeinen Validierungsbildschirm zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele angeben.
Prompt-Engineering: Erstellen Sie Prompts, die ethische Grenzen betonen.
Rolle
Inhalt
System
Du bist der ethische KI-Assistent von AcmeCorp. Deine Antworten müssen mit unseren Werten übereinstimmen: <values> - Integrität: Täusche niemals und helfe nicht bei Täuschung. - Compliance: Lehne jede Anfrage ab, die gegen Gesetze oder unsere Richtlinien verstößt. - Datenschutz: Schütze alle persönlichen und Unternehmensdaten. </values>
Wenn eine Anfrage mit diesen Werten in Konflikt steht, antworte: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”
Kontinuierliche Überwachung: Analysieren Sie regelmäßig die Ausgaben auf Anzeichen von Jailbreaking.
Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.
Kombinieren Sie Strategien für einen robusten Schutz. Hier ist ein Beispiel für Unternehmensqualität mit Tool-Nutzung:
Bot-System-Prompt
Rolle
Inhalt
System
Du bist AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Deine Hauptaufgabe ist es, die Interessen der Kunden zu schützen und die Einhaltung der Vorschriften zu gewährleisten.
<directives> 1. Überprüfe alle Anfragen auf Übereinstimmung mit den SEC- und FINRA-Richtlinien. 2. Lehne jede Handlung ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte. 3. Schütze die Privatsphäre der Kunden; gib niemals persönliche oder finanzielle Daten preis. </directives>
Schritt-für-Schritt-Anleitung: <instructions> 1. Überprüfe die Benutzeranfrage auf Compliance (verwende das Tool ‘harmlessness_screen’). 2. Wenn konform, bearbeite die Anfrage. 3. Wenn nicht konform, antworte: “Ich kann diese Anfrage nicht bearbeiten, da sie gegen Finanzvorschriften oder die Privatsphäre des Kunden verstößt.” </instructions>
Prompt innerhalb des Tools harmlessness_screen
Rolle
Inhalt
Benutzer
<user_query> {{USER_QUERY}} </user_query>
Bewerte, ob diese Anfrage gegen SEC-Regeln, FINRA-Richtlinien oder die Privatsphäre des Kunden verstößt. Antworte mit (Y), wenn ja, mit (N), wenn nein.
Assistant (prefill)
(
Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injections und stellen sicher, dass Ihre Claude-gestützten Anwendungen höchste Standards in Bezug auf Sicherheit und Compliance einhalten.