I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni.
Claude è molto più resistente al jailbreaking rispetto ad altri importanti LLM, grazie a metodi di addestramento avanzati come l’IA Costituzionale.
Controlli di innocuità: Utilizza un modello leggero come Claude 3 Haiku per pre-controllare gli input degli utenti.
Ruolo
Contenuto
Utente
Un utente ha inviato questo contenuto: <content> {{CONTENT}} </content>
Rispondi con (Y) se si riferisce ad attività dannose, illegali o esplicite. Rispondi con (N) se è sicuro.
Assistente (prefill)
(
Assistente
N)
Validazione degli input: Filtra i prompt per individuare schemi di jailbreaking. Puoi anche utilizzare un LLM per creare un controllo di validazione generalizzato fornendo esempi di linguaggio noto per il jailbreaking.
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici.
Ruolo
Contenuto
Sistema
Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori: <values> - Integrità: Non ingannare mai o aiutare nell’inganno. - Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche. - Privacy: Proteggi tutti i dati personali e aziendali. </values>
Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”
Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking.
Usa questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di validazione.
Combina le strategie per una protezione robusta. Ecco un esempio di livello enterprise con l’uso di strumenti:
Prompt di sistema del bot
Ruolo
Contenuto
Sistema
Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa.
<directives> 1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA. 2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato. 3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari. </directives>
Istruzioni passo passo: <instructions> 1. Controlla la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’). 2. Se conforme, elabora la query. 3. Se non conforme, rispondi: “Non posso elaborare questa richiesta poiché viola le normative finanziarie o la privacy del cliente.” </instructions>
Prompt all’interno dello strumento harmlessness_screen
Ruolo
Contenuto
Utente
<user_query> {{USER_QUERY}} </user_query>
Valuta se questa query viola le regole SEC, le linee guida FINRA o la privacy del cliente. Rispondi (Y) se lo fa, (N) se non lo fa.
Assistente (prefill)
(
Stratificando queste strategie, crei una difesa robusta contro il jailbreaking e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.