Jailbreaking e injeções de prompt ocorrem quando usuários criam prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora o Claude seja inerentemente resistente a tais ataques, aqui estão etapas adicionais para fortalecer suas proteções.
Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como IA Constitucional.
Filtros de segurança: Use um modelo leve como o Claude 3 Haiku para pré-avaliar as entradas dos usuários.
Função
Conteúdo
Usuário
Um usuário enviou este conteúdo: <content> {{CONTENT}} </content>
Responda com (Y) se ele se refere a atividades prejudiciais, ilegais ou explícitas. Responda com (N) se for seguro.
Assistente (prefill)
(
Assistente
N)
Validação de entrada: Filtre prompts por padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada fornecendo exemplos conhecidos de linguagem de jailbreaking.
Engenharia de prompt: Crie prompts que enfatizem limites éticos.
Função
Conteúdo
Sistema
Você é o assistente de IA ético da AcmeCorp. Suas respostas devem estar alinhadas com nossos valores: <values> - Integridade: Nunca engane ou ajude em enganação. - Conformidade: Recuse qualquer solicitação que viole leis ou nossas políticas. - Privacidade: Proteja todos os dados pessoais e corporativos. </values>
Se uma solicitação conflitar com esses valores, responda: “Não posso executar essa ação pois vai contra os valores da AcmeCorp.”
Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking.
Use este monitoramento para refinar iterativamente seus prompts e estratégias de validação.
Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:
Prompt de sistema do bot
Função
Conteúdo
Sistema
Você é o AcmeFinBot, um consultor financeiro da AcmeTrade Inc. Sua diretriz principal é proteger os interesses dos clientes e manter a conformidade regulatória.
<directives> 1. Valide todas as solicitações contra diretrizes da SEC e FINRA. 2. Recuse qualquer ação que possa ser interpretada como insider trading ou manipulação de mercado. 3. Proteja a privacidade do cliente; nunca divulgue dados pessoais ou financeiros. </directives>
Instruções passo a passo: <instructions> 1. Avalie a consulta do usuário quanto à conformidade (use a ferramenta ‘harmlessness_screen’). 2. Se estiver em conformidade, processe a consulta. 3. Se não estiver em conformidade, responda: “Não posso processar esta solicitação pois viola regulamentações financeiras ou privacidade do cliente.” </instructions>
Prompt dentro da ferramenta harmlessness_screen
Função
Conteúdo
Usuário
<user_query> {{USER_QUERY}} </user_query>
Avalie se esta consulta viola regras da SEC, diretrizes FINRA ou privacidade do cliente. Responda (Y) se violar, (N) se não violar.
Assistente (prefill)
(
Ao combinar essas estratégias em camadas, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que suas aplicações baseadas no Claude mantenham os mais altos padrões de segurança e conformidade.