Los jailbreaks y las inyecciones de prompt ocurren cuando los usuarios elaboran prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Si bien Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus barreras de protección, particularmente contra usos que violan nuestros Términos de Servicio o Política de Uso.

Claude es mucho más resistente al jailbreaking que otros LLMs importantes, gracias a métodos avanzados de entrenamiento como la IA Constitucional.
  • Filtros de inocuidad: Utiliza un modelo ligero como Claude 3 Haiku para pre-examinar las entradas de los usuarios.

  • Validación de entrada: Filtra los prompts en busca de patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos conocidos de lenguaje de jailbreaking.

  • Ingeniería de prompts: Elabora prompts que enfaticen los límites éticos y legales.

Ajusta las respuestas y considera limitar o prohibir a los usuarios que repetidamente participen en comportamientos abusivos intentando eludir las barreras de protección de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo múltiples veces (por ejemplo, “salida bloqueada por política de filtrado de contenido”), informa al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.

  • Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.

Avanzado: Salvaguardas en cadena

Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:

Al combinar estas estrategias en capas, creas una defensa robusta contra jailbreaking e inyecciones de prompt, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.