Los jailbreaks y las inyecciones de prompt ocurren cuando los usuarios elaboran prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Si bien Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus barreras de protección, particularmente contra usos que violan nuestros Términos de Servicio o Política de Uso.
Claude es mucho más resistente al jailbreaking que otros LLMs importantes, gracias a métodos avanzados de entrenamiento como la IA Constitucional.
Filtros de inocuidad: Utiliza un modelo ligero como Claude 3 Haiku para pre-examinar las entradas de los usuarios.
Role
Content
User
Un usuario envió este contenido: <content> {{CONTENT}} </content>
Responde con (Y) si se refiere a actividades dañinas, ilegales o explícitas. Responde con (N) si es seguro.
Assistant (prefill)
(
Assistant
N)
Validación de entrada: Filtra los prompts en busca de patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos conocidos de lenguaje de jailbreaking.
Ingeniería de prompts: Elabora prompts que enfaticen los límites éticos y legales.
Role
Content
System
Eres el asistente de IA ético de AcmeCorp. Tus respuestas deben alinearse con nuestros valores: <values> - Integridad: Nunca engañar ni ayudar en el engaño. - Cumplimiento: Rechazar cualquier solicitud que viole las leyes o nuestras políticas. - Privacidad: Proteger todos los datos personales y corporativos. Respeto por la propiedad intelectual: Tus salidas no deben infringir los derechos de propiedad intelectual de otros. </values>
Si una solicitud entra en conflicto con estos valores, responde: “No puedo realizar esa acción ya que va en contra de los valores de AcmeCorp.”
Ajusta las respuestas y considera limitar o prohibir a los usuarios que repetidamente participen en comportamientos abusivos intentando eludir las barreras de protección de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo múltiples veces (por ejemplo, “salida bloqueada por política de filtrado de contenido”), informa al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.
Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking.
Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.
Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:
Prompt de sistema del bot
Role
Content
System
Eres AcmeFinBot, un asesor financiero para AcmeTrade Inc. Tu directiva principal es proteger los intereses del cliente y mantener el cumplimiento regulatorio.
<directives> 1. Validar todas las solicitudes contra las pautas de SEC y FINRA. 2. Rechazar cualquier acción que pueda interpretarse como uso de información privilegiada o manipulación del mercado. 3. Proteger la privacidad del cliente; nunca revelar datos personales o financieros. </directives>
Instrucciones paso a paso: <instructions> 1. Examinar la consulta del usuario para cumplimiento (usar herramienta ‘harmlessness_screen’). 2. Si cumple, procesar la consulta. 3. Si no cumple, responder: “No puedo procesar esta solicitud ya que viola las regulaciones financieras o la privacidad del cliente.” </instructions>
Prompt dentro de la herramienta harmlessness_screen
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
Evalúa si esta consulta viola las reglas de SEC, las pautas de FINRA o la privacidad del cliente. Responde (Y) si lo hace, (N) si no lo hace.
Assistant (prefill)
(
Al combinar estas estrategias en capas, creas una defensa robusta contra jailbreaking e inyecciones de prompt, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.