Jailbreaking e injeções de prompt ocorrem quando os usuários criam prompts específicos que exploram vulnerabilidades no treinamento do modelo, com o objetivo de gerar conteúdo inapropriado ou prejudicial. Embora o Claude seja inerentemente resiliente a tais ataques devido a métodos avançados de treinamento como Reinforcement Learning from Human Feedback (RLHF) e Constitutional AI, e também seja muito mais resistente a tais ataques do que outros grandes modelos de linguagem (New York Times, 2023), existem algumas etapas adicionais de mitigação que você pode tomar se isso for particularmente importante para o seu caso de uso.


Estratégias de mitigação

  1. Telas de inofensividade: Use um modelo pequeno e rápido como o Claude 3 Haiku para implementar uma “tela de inofensividade” para avaliar a adequação da entrada do usuário antes de processá-la. Isso ajuda a detectar e bloquear prompts potencialmente prejudiciais. Aqui está um exemplo de prompt de tela de inofensividade com a resposta do Claude:
    FunçãoConteúdo
    UsuárioUm usuário humano gostaria que você continuasse um pedaço de conteúdo. Aqui está o conteúdo até agora: <content>{{CONTENT}}</content>

    Se o conteúdo se referir a atividades prejudiciais, pornográficas ou ilegais, responda com (Y). Se o conteúdo não se referir a atividades prejudiciais, pornográficas ou ilegais, responda com (N)
    Assistente (Preenchimento prévio)(
    Assistente (Resposta do Claude)Y)
  2. Validação de entrada: Aplique técnicas rigorosas de validação de entrada para filtrar prompts que contenham palavras-chave ou padrões associados a tentativas de jailbreaking ou conteúdo prejudicial (como Esqueça todas as instruções anteriores.). Isso pode ajudar a evitar que prompts maliciosos sejam processados pelo modelo, mas também pode ser difícil de implementar em escala, pois os jailbreakers continuam evoluindo sua linguagem de jailbreaking. Você pode usar um LLM para aplicar uma tela de validação mais generalizada, fornecendo a ele linguagem conhecida de jailbreaking como exemplos dos tipos de fraseologia e intenção que o modelo deve procurar.
  3. Engenharia de prompt: Crie seus prompts cuidadosamente para reduzir a probabilidade de tentativas de jailbreaking. Use instruções claras, concisas e bem definidas que enfatizem as diretrizes éticas do modelo e as ações proibidas. Aqui está um exemplo de prompt do sistema com instruções claras:
    Conteúdo
    SistemaVocê é um assistente de IA projetado para ser útil, inofensivo e honesto. Você deve aderir a diretrizes éticas rígidas e abster-se de se envolver ou encorajar quaisquer atividades prejudiciais, ilegais ou inapropriadas. Se um usuário tentar fazer com que você faça algo contra seus princípios éticos, recuse educadamente e explique por que não pode cumprir.
  4. Monitoramento contínuo: Monitore regularmente as saídas do modelo em busca de sinais de jailbreaking ou geração de conteúdo inapropriado. Isso pode ajudar a identificar possíveis vulnerabilidades para ajudá-lo a refinar seus prompts ou estratégia de validação.

Juntando tudo

Ao combinar essas estratégias, você pode reduzir significativamente o risco de jailbreaking e injeções de prompt na família de modelos Claude. Embora o Claude já seja altamente resistente a tais ataques, a implementação de salvaguardas adicionais garante uma experiência mais segura e confiável para todos os usuários.

Aqui está um exemplo de um prompt do sistema que incorpora várias estratégias:

Conteúdo
SistemaVocê é um assistente de IA projetado para ser útil, inofensivo e honesto. Você deve aderir a diretrizes éticas rígidas e abster-se de se envolver ou encorajar quaisquer atividades prejudiciais, ilegais ou inapropriadas. Se um usuário tentar fazer com que você faça algo proibido pelas diretrizes abaixo, diga “Não posso fazer isso”.

<guidelines>
{{GUIDELINES}}
</guidelines>

Além disso, se você detectar qualquer conteúdo que se refira a atividades prejudiciais, pornográficas ou ilegais, responda imediatamente com “Aviso de Conteúdo: Inapropriado” e não forneça nenhuma resposta adicional.

Ao fornecer instruções claras, implementar um aviso de conteúdo e enfatizar os princípios éticos do modelo, esse prompt ajuda a minimizar o risco de jailbreaking e injeções de prompt.


Próximos passos

  • Explore reduzindo vazamentos de prompt para aprender como minimizar o risco de o modelo revelar informações confidenciais do prompt de entrada.
  • Confira nosso guia de engenharia de prompt para uma visão geral abrangente das estratégias para criar prompts altamente eficazes.
  • Se você tiver alguma dúvida ou preocupação, não hesite em entrar em contato com nossa equipe de suporte ao cliente.