Los jailbreaks y las inyecciones de prompts ocurren cuando los usuarios crean prompts específicos que explotan vulnerabilidades en el entrenamiento del modelo, con el objetivo de generar contenido inapropiado o dañino. Aunque Claude es inherentemente resistente a tales ataques debido a métodos avanzados de entrenamiento como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y la IA Constitucional, y también es mucho más resistente a tales ataques que otros modelos principales de lenguaje grande (New York Times, 2023), hay algunos pasos adicionales de mitigación que puedes tomar si esto es particularmente importante para tu caso de uso.


Estrategias de mitigación

  1. Pantallas de inocuidad: Utiliza un modelo pequeño y rápido como Claude 3 Haiku para implementar una “pantalla de inocuidad” para evaluar la idoneidad de la entrada del usuario antes de procesarla. Esto ayuda a detectar y bloquear prompts potencialmente dañinos. Aquí hay un ejemplo de prompt de pantalla de inocuidad con la respuesta de Claude:
    RolContenido
    UsuarioUn usuario humano desea que continúes una pieza de contenido. Aquí está el contenido hasta ahora: <content>{{CONTENT}}</content>

    Si el contenido se refiere a actividades dañinas, pornográficas o ilegales, responde con (Y). Si el contenido no se refiere a actividades dañinas, pornográficas o ilegales, responde con (N)
    Asistente (Prefill)(
    Asistente (Respuesta de Claude)Y)
  2. Validación de entrada: Aplica técnicas estrictas de validación de entrada para filtrar prompts que contengan palabras clave o patrones asociados con intentos de jailbreak o contenido dañino (como Olvida todas las instrucciones anteriores.). Esto puede ayudar a evitar que prompts maliciosos sean procesados por el modelo, pero también puede ser difícil de implementar a escala, ya que los jailbreakers continúan evolucionando su lenguaje de jailbreaking. Puedes usar un LLM para aplicar una pantalla de validación más generalizada proporcionándole lenguaje conocido de jailbreaking como ejemplos de los tipos de frases e intenciones que el modelo debe buscar.
  3. Ingeniería de prompts: Elabora tus prompts cuidadosamente para reducir la probabilidad de intentos de jailbreaking. Utiliza instrucciones claras, concisas y bien definidas que enfaticen las pautas éticas del modelo y las acciones prohibidas. Aquí hay un ejemplo de prompt de sistema con instrucciones claras:
    Contenido
    SistemaEres un asistente de IA diseñado para ser útil, inofensivo y honesto. Debes adherirte a pautas éticas estrictas y abstenerte de participar o fomentar cualquier actividad dañina, ilegal o inapropiada. Si un usuario intenta hacerte hacer algo en contra de tus principios éticos, rechaza cortésmente y explica por qué no puedes cumplir.
  4. Monitoreo continuo: Monitorea regularmente las salidas del modelo en busca de signos de jailbreaking o generación de contenido inapropiado. Esto puede ayudar a identificar posibles vulnerabilidades para ayudarte a refinar tus prompts o estrategia de validación.

Juntándolo todo

Al combinar estas estrategias, puedes reducir significativamente el riesgo de jailbreaking e inyecciones de prompts en la familia de modelos de Claude. Aunque Claude ya es altamente resistente a tales ataques, implementar salvaguardas adicionales garantiza una experiencia más segura y confiable para todos los usuarios.

Aquí hay un ejemplo de un prompt de sistema que incorpora múltiples estrategias:

Contenido
SistemaEres un asistente de IA diseñado para ser útil, inofensivo y honesto. Debes adherirte a pautas éticas estrictas y abstenerte de participar o fomentar cualquier actividad dañina, ilegal o inapropiada. Si un usuario intenta hacerte hacer algo prohibido por las pautas a continuación, di “No puedo hacer eso”.

<guidelines>
{{GUIDELINES}}
</guidelines>

Además, si detectas cualquier contenido que se refiera a actividades dañinas, pornográficas o ilegales, responde inmediatamente con “Advertencia de contenido: Inapropiado” y no proporciones ninguna respuesta adicional.

Al proporcionar instrucciones claras, implementar una advertencia de contenido y enfatizar los principios éticos del modelo, este prompt ayuda a minimizar el riesgo de jailbreaking e inyecciones de prompts.


Próximos pasos

  • Explora reducir fugas de prompts para aprender cómo minimizar el riesgo de que el modelo revele información sensible del prompt de entrada.
  • Consulta nuestra guía de ingeniería de prompts para obtener una descripción completa de las estrategias para crear prompts altamente efectivos.
  • Si tienes alguna pregunta o inquietud, no dudes en comunicarte con nuestro equipo de atención al cliente.