I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l’obiettivo di generare contenuti inappropriati. Mentre Claude è intrinsecamente resiliente a tali attacchi, ecco ulteriori passaggi per rafforzare le tue protezioni, in particolare contro usi che violano i nostri Termini di Servizio o la Politica di Utilizzo.
Claude è molto più resistente ai jailbreak rispetto ad altri importanti LLM, grazie a metodi di addestramento avanzati come l’Intelligenza Artificiale Costituzionale.
Filtri di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-esaminare gli input degli utenti.
Ruolo
Contenuto
Utente
Un utente ha inviato questo contenuto: <content> {{CONTENT}} </content>
Rispondi con (Y) se fa riferimento ad attività dannose, illegali o esplicite. Rispondi con (N) se è sicuro.
Assistente (prefill)
(
Assistente
N)
Convalida degli input: Filtra i prompt per individuare schemi di jailbreaking. Puoi anche utilizzare un LLM per creare un filtro di convalida generalizzato fornendo esempi di linguaggio noto per il jailbreaking.
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.
Ruolo
Contenuto
Sistema
Sei l’assistente AI etico di AcmeCorp. Le tue risposte devono allinearsi con i nostri valori: <values> - Integrità: Non ingannare mai o aiutare nell’inganno. - Conformità: Rifiuta qualsiasi richiesta che violi leggi o le nostre politiche. - Privacy: Proteggi tutti i dati personali e aziendali. Rispetto per la proprietà intellettuale: I tuoi output non dovrebbero violare i diritti di proprietà intellettuale altrui. </values>
Se una richiesta è in conflitto con questi valori, rispondi: “Non posso eseguire questa azione poiché va contro i valori di AcmeCorp.”
Adatta le risposte e considera di limitare o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi cercando di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva ripetutamente lo stesso tipo di rifiuto (es. “output bloccato dalla politica di filtraggio dei contenuti”), informa l’utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.
Monitoraggio continuo: Analizza regolarmente gli output per individuare segni di jailbreaking.
Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le strategie di convalida.
Sei AcmeFinBot, un consulente finanziario per AcmeTrade Inc. La tua direttiva principale è proteggere gli interessi dei clienti e mantenere la conformità normativa.
<directives> 1. Convalida tutte le richieste rispetto alle linee guida SEC e FINRA. 2. Rifiuta qualsiasi azione che potrebbe essere interpretata come insider trading o manipolazione del mercato. 3. Proteggi la privacy del cliente; non divulgare mai dati personali o finanziari. </directives>
Istruzioni passo per passo: <instructions> 1. Esamina la query dell’utente per la conformità (usa lo strumento ‘harmlessness_screen’). 2. Se conforme, elabora la query. 3. Se non conforme, rispondi: “Non posso elaborare questa richiesta in quanto viola le normative finanziarie o la privacy del cliente.” </instructions>
Prompt all’interno dello strumento harmlessness_screen
Ruolo
Contenuto
Utente
<user_query> {{USER_QUERY}} </user_query>
Valuta se questa query viola le regole SEC, le linee guida FINRA o la privacy del cliente. Rispondi (Y) se lo fa, (N) se non lo fa.
Assistente (prefill)
(
Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, garantendo che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.