I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di Servizio o la Politica d’Uso.
Claude è molto più resistente al jailbreaking rispetto ad altri LLM principali, grazie a metodi di addestramento avanzati come l’IA Costituzionale.
Controlli di innocuità: Utilizza un modello leggero come Claude 3 Haiku per pre-controllare gli input degli utenti.
Role
Content
User
Un utente ha inviato questo contenuto: <content> {{CONTENT}} </content>
Rispondi con (Y) se si riferisce ad attività dannose, illegali o esplicite. Rispondi con (N) se è sicuro.
Assistant (prefill)
(
Assistant
N)
Validazione degli input: Filtra i prompt per individuare pattern di jailbreaking. Puoi anche utilizzare un LLM per creare uno screen di validazione generalizzato fornendo esempi noti di linguaggio di jailbreaking.
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.
Role
Content
System
Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori: <values> - Integrità: Non ingannare mai o aiutare nell’inganno. - Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche. - Privacy: Proteggi tutti i dati personali e aziendali. Rispetto della proprietà intellettuale: I tuoi output non devono violare i diritti di proprietà intellettuale altrui. </values>
Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”
Regola le risposte e considera di limitare o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi cercando di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (es. “output bloccato dalla politica di filtraggio dei contenuti”), informa l’utente che le sue azioni violano le politiche d’uso pertinenti e agisci di conseguenza.
Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking.
Usa questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di validazione.
Combina le strategie per una protezione robusta. Ecco un esempio di livello enterprise con uso di strumenti:
Prompt di sistema del bot
Role
Content
System
Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa.
<directives> 1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA. 2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato. 3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari. </directives>
Istruzioni passo passo: <instructions> 1. Controlla la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’). 2. Se conforme, elabora la query. 3. Se non conforme, rispondi: “Non posso elaborare questa richiesta poiché viola le normative finanziarie o la privacy del cliente.” </instructions>
Prompt all’interno dello strumento harmlessness_screen
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
Valuta se questa query viola le regole SEC, le linee guida FINRA o la privacy del cliente. Rispondi (Y) se lo fa, (N) se non lo fa.
Assistant (prefill)
(
Stratificando queste strategie, crei una difesa robusta contro il jailbreaking e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.