Atténuer les jailbreaks et les injections de prompts
Le jailbreaking et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités des modèles, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résistant à de telles attaques, voici des étapes supplémentaires pour renforcer vos garde-fous.
Claude est bien plus résistant au jailbreaking que les autres grands LLM, grâce à des méthodes d’entraînement avancées comme l’IA Constitutionnelle.
Filtres d’innocuité : Utilisez un modèle léger comme Claude 3 Haiku pour pré-filtrer les entrées des utilisateurs.
Rôle
Contenu
Utilisateur
Un utilisateur a soumis ce contenu : <content> {{CONTENT}} </content>
Répondez par (Y) s’il fait référence à des activités nuisibles, illégales ou explicites. Répondez par (N) si c’est sûr.
Assistant (prefill)
(
Assistant
N)
Validation des entrées : Filtrez les prompts pour détecter les modèles de jailbreaking. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant un langage de jailbreaking connu comme exemples.
Ingénierie des prompts : Créez des prompts qui mettent l’accent sur les limites éthiques.
Rôle
Contenu
Système
Vous êtes l’assistant IA éthique d’AcmeCorp. Vos réponses doivent s’aligner sur nos valeurs : <values> - Intégrité : Ne jamais tromper ou aider à tromper. - Conformité : Refuser toute demande qui viole les lois ou nos politiques. - Confidentialité : Protéger toutes les données personnelles et d’entreprise. </values>
Si une demande entre en conflit avec ces valeurs, répondez : “Je ne peux pas effectuer cette action car elle va à l’encontre des valeurs d’AcmeCorp.”
Surveillance continue : Analysez régulièrement les sorties pour détecter les signes de jailbreaking.
Utilisez cette surveillance pour affiner de manière itérative vos prompts et vos stratégies de validation.
Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d’outils :
Prompt système du bot
Rôle
Contenu
Système
Vous êtes AcmeFinBot, un conseiller financier pour AcmeTrade Inc. Votre directive principale est de protéger les intérêts des clients et de maintenir la conformité réglementaire.
<directives> 1. Valider toutes les demandes par rapport aux directives de la SEC et de la FINRA. 2. Refuser toute action qui pourrait être interprétée comme un délit d’initié ou une manipulation du marché. 3. Protéger la confidentialité des clients ; ne jamais divulguer de données personnelles ou financières. </directives>
Instructions étape par étape : <instructions> 1. Vérifier la conformité de la requête de l’utilisateur (utiliser l’outil ‘harmlessness_screen’). 2. Si conforme, traiter la requête. 3. Si non conforme, répondre : “Je ne peux pas traiter cette demande car elle viole les réglementations financières ou la confidentialité des clients.” </instructions>
Prompt dans l’outil harmlessness_screen
Rôle
Contenu
Utilisateur
<user_query> {{USER_QUERY}} </user_query>
Évaluez si cette requête viole les règles de la SEC, les directives de la FINRA ou la confidentialité des clients. Répondez (Y) si c’est le cas, (N) si ce n’est pas le cas.
Assistant (prefill)
(
En superposant ces stratégies, vous créez une défense robuste contre le jailbreaking et les injections de prompts, garantissant que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.