Las filtraciones de prompts pueden exponer información sensible que esperas que esté “oculta” en tu prompt. Si bien ningún método es infalible, las estrategias a continuación pueden reducir significativamente el riesgo.

Antes de intentar reducir la filtración de prompts

Recomendamos usar estrategias de ingeniería de prompts resistentes a filtraciones solo cuando sea absolutamente necesario. Los intentos de hacer tu prompt a prueba de filtraciones pueden agregar complejidad que podría degradar el rendimiento en otras partes de la tarea debido al aumento de la complejidad de la tarea general del LLM.

Si decides implementar técnicas resistentes a filtraciones, asegúrate de probar tus prompts exhaustivamente para garantizar que la complejidad adicional no impacte negativamente el rendimiento del modelo o la calidad de sus resultados.

Intenta primero técnicas de monitoreo, como el filtrado de salida y el post-procesamiento, para tratar de detectar casos de filtración de prompts.

Estrategias para reducir la filtración de prompts

  • Separar el contexto de las consultas: Puedes intentar usar prompts de sistema para aislar información y contexto clave de las consultas del usuario. Puedes enfatizar instrucciones clave en el turno del User, luego reenfatizar esas instrucciones prerellenando el turno del Assistant.
  • Usar post-procesamiento: Filtra las salidas de Claude en busca de palabras clave que puedan indicar una filtración. Las técnicas incluyen el uso de expresiones regulares, filtrado de palabras clave u otros métodos de procesamiento de texto.
    También puedes usar un LLM con prompts para filtrar salidas en busca de filtraciones más matizadas.
  • Evitar detalles propietarios innecesarios: Si Claude no lo necesita para realizar la tarea, no lo incluyas. El contenido extra distrae a Claude de enfocarse en las instrucciones de “no filtración”.
  • Auditorías regulares: Revisa periódicamente tus prompts y las salidas de Claude en busca de posibles filtraciones.

Recuerda, el objetivo no es solo prevenir filtraciones sino mantener el rendimiento de Claude. La prevención de filtraciones excesivamente compleja puede degradar los resultados. El equilibrio es clave.