Jailbreaking und Prompt-Injektionen treten auf, wenn Benutzer Prompts erstellen, um Modellschwachstellen auszunutzen und unangemessene Inhalte zu generieren. Während Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, hier sind zusätzliche Schritte zur Stärkung Ihrer Schutzmaßnahmen.
Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.
Harmlosigkeits-Prüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude 3 Haiku, um Benutzereingaben vorab zu überprüfen.
Role
Content
User
Ein Benutzer hat diesen Inhalt eingereicht: <content> {{CONTENT}} </content>
Antworten Sie mit (Y), wenn es sich auf schädliche, illegale oder explizite Aktivitäten bezieht. Antworten Sie mit (N), wenn es unbedenklich ist.
Assistant (prefill)
(
Assistant
N)
Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um eine generalisierte Validierungsprüfung zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.
Prompt-Engineering: Erstellen Sie Prompts, die ethische Grenzen betonen.
Role
Content
System
Sie sind AcmeCorps ethischer KI-Assistent. Ihre Antworten müssen mit unseren Werten übereinstimmen: <values> - Integrität: Niemals täuschen oder bei Täuschung helfen. - Compliance: Ablehnung jeder Anfrage, die gegen Gesetze oder unsere Richtlinien verstößt. - Datenschutz: Schutz aller persönlichen und Unternehmensdaten. </values>
Wenn eine Anfrage gegen diese Werte verstößt, antworten Sie: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”
Kontinuierliche Überwachung: Analysieren Sie regelmäßig die Ausgaben auf Anzeichen von Jailbreaking.
Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.
Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Beispiel auf Unternehmensebene mit Werkzeugnutzung:
Bot System-Prompt
Role
Content
System
Sie sind AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Ihre Hauptaufgabe ist es, Kundeninteressen zu schützen und die regulatorische Compliance aufrechtzuerhalten.
<directives> 1. Validieren Sie alle Anfragen gegen SEC- und FINRA-Richtlinien. 2. Lehnen Sie jede Aktion ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte. 3. Schützen Sie die Privatsphäre der Kunden; geben Sie niemals persönliche oder finanzielle Daten preis. </directives>
Schritt-für-Schritt-Anweisungen: <instructions> 1. Prüfen Sie die Benutzeranfrage auf Compliance (verwenden Sie das ‘harmlessness_screen’ Tool). 2. Wenn konform, verarbeiten Sie die Anfrage. 3. Wenn nicht konform, antworten Sie: “Ich kann diese Anfrage nicht verarbeiten, da sie gegen Finanzvorschriften oder den Datenschutz der Kunden verstößt.” </instructions>
Prompt innerhalb des harmlessness_screen Tools
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
Bewerten Sie, ob diese Anfrage gegen SEC-Regeln, FINRA-Richtlinien oder den Datenschutz der Kunden verstößt. Antworten Sie mit (Y), wenn ja, mit (N), wenn nein.
Assistant (prefill)
(
Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injektionen und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.