Jailbreaking e injeções de prompt ocorrem quando usuários criam prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora o Claude seja inerentemente resistente a tais ataques, aqui estão etapas adicionais para fortalecer suas proteções.

Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como IA Constitucional.
  • Filtros de segurança: Use um modelo leve como o Claude 3 Haiku para pré-avaliar as entradas dos usuários.

  • Validação de entrada: Filtre prompts por padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada fornecendo exemplos conhecidos de linguagem de jailbreaking.

  • Engenharia de prompt: Crie prompts que enfatizem limites éticos.

  • Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking. Use este monitoramento para refinar iterativamente seus prompts e estratégias de validação.

Avançado: Proteções em cadeia

Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:

Ao combinar essas estratégias em camadas, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que suas aplicações baseadas no Claude mantenham os mais altos padrões de segurança e conformidade.