Le jailbreaking et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités des modèles, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résistant à de telles attaques, voici des étapes supplémentaires pour renforcer vos garde-fous.

Claude est bien plus résistant au jailbreaking que les autres grands LLM, grâce à des méthodes d’entraînement avancées comme l’IA Constitutionnelle.
  • Filtres d’innocuité : Utilisez un modèle léger comme Claude 3 Haiku pour pré-filtrer les entrées des utilisateurs.

  • Validation des entrées : Filtrez les prompts pour détecter les modèles de jailbreaking. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant un langage de jailbreaking connu comme exemples.

  • Ingénierie des prompts : Créez des prompts qui mettent l’accent sur les limites éthiques.

  • Surveillance continue : Analysez régulièrement les sorties pour détecter les signes de jailbreaking. Utilisez cette surveillance pour affiner de manière itérative vos prompts et vos stratégies de validation.

Avancé : Enchaîner les protections

Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d’outils :

En superposant ces stratégies, vous créez une défense robuste contre le jailbreaking et les injections de prompts, garantissant que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.