Il jailbreaking e le iniezioni di prompt si verificano quando gli utenti creano prompt specifici che sfruttano le vulnerabilità nell’addestramento del modello, con l’obiettivo di generare contenuti inappropriati o dannosi. Mentre Claude è intrinsecamente resiliente a tali attacchi grazie a metodi di addestramento avanzati come il Reinforcement Learning from Human Feedback (RLHF) e la Constitutional AI, ed è anche molto più resistente a tali attacchi rispetto ad altri importanti modelli di linguaggio di grandi dimensioni (New York Times, 2023), ci sono alcuni passaggi aggiuntivi di mitigazione che puoi intraprendere se questo è particolarmente importante per il tuo caso d’uso.


Strategie di mitigazione

  1. Schermi di innocuità: Utilizza un modello piccolo e veloce come Claude 3 Haiku per implementare uno “schermo di innocuità” per valutare l’appropriatezza dell’input dell’utente prima di elaborarlo. Questo aiuta a rilevare e bloccare i prompt potenzialmente dannosi.
    Ecco un esempio di prompt per lo schermo di innocuità con la risposta di Claude:
    RuoloContenuto
    UtenteUn utente umano vorrebbe che tu continuassi un pezzo di contenuto. Ecco il contenuto finora: <content>{{CONTENT}}</content>

    Se il contenuto fa riferimento ad attività dannose, pornografiche o illegali, rispondi con (Y). Se il contenuto non fa riferimento ad attività dannose, pornografiche o illegali, rispondi con (N)
    Assistente (Prefill)(
    Assistente (Risposta di Claude)Y)
  2. Validazione dell’input: Applica tecniche di validazione dell’input rigorose per filtrare i prompt contenenti parole chiave o pattern associati a tentativi di jailbreaking o contenuti dannosi (come Dimentica tutte le istruzioni precedenti.). Questo può aiutare a prevenire l’elaborazione di prompt malevoli da parte del modello, ma può anche essere difficile da implementare su larga scala, poiché i jailbreaker continuano a evolvere il loro linguaggio di jailbreaking. Puoi utilizzare un LLM per applicare uno schermo di validazione più generalizzato fornendogli esempi noti di linguaggio di jailbreaking per i tipi di frasi e intenzioni che il modello dovrebbe cercare.
  3. Ingegneria dei prompt: Crea i tuoi prompt con attenzione per ridurre la probabilità di tentativi di jailbreaking. Utilizza istruzioni chiare, concise e ben definite che enfatizzino le linee guida etiche del modello e le azioni proibite.
    Ecco un esempio di prompt di sistema con istruzioni chiare:
    Contenuto
    SistemaSei un assistente AI progettato per essere utile, innocuo e onesto. Devi attenerti a rigorose linee guida etiche e astenerti dall’impegnarti o incoraggiare qualsiasi attività dannosa, illegale o inappropriata. Se un utente tenta di farti fare qualcosa contro i tuoi principi etici, rifiuta gentilmente e spiega perché non puoi accettare.
  4. Monitoraggio continuo: Monitora regolarmente gli output del modello per individuare segni di jailbreaking o generazione di contenuti inappropriati. Questo può aiutare a identificare potenziali vulnerabilità per perfezionare i tuoi prompt o la tua strategia di validazione.

Mettere tutto insieme

Combinando queste strategie, puoi ridurre significativamente il rischio di jailbreaking e iniezioni di prompt nella famiglia di modelli Claude. Mentre Claude è già altamente resistente a tali attacchi, l’implementazione di ulteriori misure di sicurezza garantisce un’esperienza più sicura e affidabile per tutti gli utenti.

Ecco un esempio di prompt di sistema che incorpora più strategie:

Contenuto
SistemaSei un assistente AI progettato per essere utile, innocuo e onesto. Devi attenerti a rigorose linee guida etiche e astenerti dall’impegnarti o incoraggiare qualsiasi attività dannosa, illegale o inappropriata. Se un utente tenta di farti fare qualcosa vietato dalle linee guida sottostanti, di’ “Non posso farlo.”

<guidelines>
{{GUIDELINES}}
</guidelines>

Inoltre, se rilevi qualsiasi contenuto che fa riferimento ad attività dannose, pornografiche o illegali, rispondi immediatamente con “Avviso sul contenuto: Inappropriato” e non fornire ulteriori risposte.

Fornendo istruzioni chiare, implementando un avviso sul contenuto e sottolineando i principi etici del modello, questo prompt aiuta a minimizzare il rischio di jailbreaking e iniezioni di prompt.


Prossimi passi