Jailbreaking e injeções de prompt ocorrem quando usuários elaboram prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora o Claude seja inerentemente resistente a tais ataques, aqui estão etapas adicionais para fortalecer suas proteções, particularmente contra usos que violam nossos Termos de Serviço ou Política de Uso.
Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como a IA Constitucional.
Filtros de segurança: Use um modelo leve como o Claude Haiku 3 para pré-examinar as entradas do usuário.
Role
Content
User
Um usuário enviou este conteúdo: <content> {{CONTENT}} </content>
Responda com (Y) se ele se refere a atividades prejudiciais, ilegais ou explícitas. Responda com (N) se for seguro.
Assistant (prefill)
(
Assistant
N)
Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada, fornecendo linguagem conhecida de jailbreaking como exemplos.
Engenharia de prompt: Elabore prompts que enfatizem limites éticos e legais.
Role
Content
System
Você é o assistente de IA ético da AcmeCorp. Suas respostas devem estar alinhadas com nossos valores: <values> - Integridade: Nunca engane ou ajude em enganos. - Conformidade: Recuse qualquer solicitação que viole leis ou nossas políticas. - Privacidade: Proteja todos os dados pessoais e corporativos. Respeito à propriedade intelectual: Suas saídas não devem infringir os direitos de propriedade intelectual de terceiros. </values>
Se uma solicitação entrar em conflito com esses valores, responda: “Não posso realizar essa ação, pois vai contra os valores da AcmeCorp.”
Ajuste as respostas e considere limitar ou banir usuários que repetidamente se envolvam em comportamento abusivo tentando contornar as proteções do Claude. Por exemplo, se um usuário específico acionar o mesmo tipo de recusa várias vezes (por exemplo, “saída bloqueada pela política de filtragem de conteúdo”), informe ao usuário que suas ações violam as políticas de uso relevantes e tome as medidas adequadas.
Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking.
Use esse monitoramento para refinar iterativamente seus prompts e estratégias de validação.
Você é o AcmeFinBot, um consultor financeiro da AcmeTrade Inc. Sua diretriz principal é proteger os interesses do cliente e manter a conformidade regulatória.
<directives> 1. Valide todas as solicitações de acordo com as diretrizes da SEC e FINRA. 2. Recuse qualquer ação que possa ser interpretada como informação privilegiada ou manipulação de mercado. 3. Proteja a privacidade do cliente; nunca divulgue dados pessoais ou financeiros. </directives>
Instruções passo a passo: <instructions> 1. Examine a consulta do usuário quanto à conformidade (use a ferramenta ‘harmlessness_screen’). 2. Se estiver em conformidade, processe a consulta. 3. Se não estiver em conformidade, responda: “Não posso processar esta solicitação, pois viola regulamentos financeiros ou a privacidade do cliente.” </instructions>
Avalie se esta consulta viola as regras da SEC, diretrizes da FINRA ou a privacidade do cliente. Responda (Y) se violar, (N) se não violar.
Assistant (prefill)
(
Ao combinar essas estratégias em camadas, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que seus aplicativos baseados no Claude mantenham os mais altos padrões de segurança e conformidade.