I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni, in particolare contro usi che violano i nostri Termini di Servizio o la Politica di Utilizzo.

Claude è molto più resistente ai jailbreak rispetto ad altri importanti LLM, grazie a metodi di addestramento avanzati come l’Intelligenza Artificiale Costituzionale.
  • Filtri di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-esaminare gli input degli utenti.

  • Convalida degli input: Filtra i prompt per individuare schemi di jailbreaking. Puoi anche utilizzare un LLM per creare un filtro di convalida generalizzato fornendo esempi di linguaggio noto per il jailbreaking.

  • Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

Adatta le risposte e considera di limitare o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi cercando di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva ripetutamente lo stesso tipo di rifiuto (es. “output bloccato dalla politica di filtraggio dei contenuti”), informa l’utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.

  • Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking. Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di convalida.

Avanzato: Protezioni a catena

Combina strategie per una protezione robusta. Ecco un esempio di livello enterprise con l’uso di strumenti:

Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, garantendo che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.