Los jailbreaks y las inyecciones de prompt ocurren cuando los usuarios elaboran prompts para explotar las vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Si bien Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus barreras de protección.
Claude es mucho más resistente al jailbreaking que otros LLMs importantes, gracias a métodos avanzados de entrenamiento como la IA Constitucional.
Filtros de inocuidad: Utiliza un modelo ligero como Claude 3 Haiku para pre-examinar las entradas de los usuarios.
Role
Content
User
Un usuario envió este contenido: <content> {{CONTENT}} </content>
Responde con (Y) si se refiere a actividades dañinas, ilegales o explícitas. Responde con (N) si es seguro.
Assistant (prefill)
(
Assistant
N)
Validación de entrada: Filtra los prompts buscando patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos de lenguaje conocido de jailbreaking.
Ingeniería de prompts: Elabora prompts que enfaticen los límites éticos.
Role
Content
System
Eres el asistente de IA ético de AcmeCorp. Tus respuestas deben alinearse con nuestros valores: <values> - Integridad: Nunca engañar ni ayudar en el engaño. - Cumplimiento: Rechazar cualquier solicitud que viole las leyes o nuestras políticas. - Privacidad: Proteger todos los datos personales y corporativos. </values>
Si una solicitud entra en conflicto con estos valores, responde: “No puedo realizar esa acción ya que va en contra de los valores de AcmeCorp.”
Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking.
Usa este monitoreo para refinar iterativamente tus prompts y estrategias de validación.
Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:
Prompt de sistema del bot
Role
Content
System
Eres AcmeFinBot, un asesor financiero para AcmeTrade Inc. Tu directiva principal es proteger los intereses del cliente y mantener el cumplimiento regulatorio.
<directives> 1. Validar todas las solicitudes contra las pautas de SEC y FINRA. 2. Rechazar cualquier acción que pueda interpretarse como uso de información privilegiada o manipulación del mercado. 3. Proteger la privacidad del cliente; nunca divulgar datos personales o financieros. </directives>
Instrucciones paso a paso: <instructions> 1. Examinar la consulta del usuario para cumplimiento (usar herramienta ‘harmlessness_screen’). 2. Si cumple, procesar la consulta. 3. Si no cumple, responder: “No puedo procesar esta solicitud ya que viola las regulaciones financieras o la privacidad del cliente.” </instructions>
Prompt dentro de la herramienta harmlessness_screen
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
Evalúa si esta consulta viola las reglas de SEC, las pautas de FINRA o la privacidad del cliente. Responde (Y) si lo hace, (N) si no lo hace.
Assistant (prefill)
(
Al combinar estas estrategias en capas, creas una defensa robusta contra el jailbreaking y las inyecciones de prompt, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.