I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di Servizio o la Politica d’Uso.

Claude è molto più resistente al jailbreaking rispetto ad altri LLM principali, grazie a metodi di addestramento avanzati come l’IA Costituzionale.
  • Controlli di innocuità: Utilizza un modello leggero come Claude 3 Haiku per pre-controllare gli input degli utenti.

  • Validazione degli input: Filtra i prompt per individuare pattern di jailbreaking. Puoi anche utilizzare un LLM per creare uno screen di validazione generalizzato fornendo esempi noti di linguaggio di jailbreaking.

  • Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

Regola le risposte e considera di limitare o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi cercando di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (es. “output bloccato dalla politica di filtraggio dei contenuti”), informa l’utente che le sue azioni violano le politiche d’uso pertinenti e agisci di conseguenza.

  • Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking. Usa questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di validazione.

Avanzato: Protezioni a catena

Combina le strategie per una protezione robusta. Ecco un esempio di livello enterprise con uso di strumenti:

Stratificando queste strategie, crei una difesa robusta contro il jailbreaking e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.