越狱和提示注入发生在用户精心设计特定的提示来利用模型训练中的漏洞,目的是生成不适当或有害的内容。虽然Claude由于先进的训练方法(如人类反馈强化学习(RLHF)和宪法AI)而具有内在的抵抗力,并且与其他主要的大型语言模型相比,Claude对此类攻击的抵抗力也要强得多(New York Times, 2023),但如果这对您的用例特别重要,您还可以采取一些额外的缓解步骤。


缓解策略

  1. 无害性筛选:使用像Claude 3 Haiku这样小而快的模型来实现”无害性筛选”,在处理用户输入之前评估其适当性。这有助于检测和阻止潜在的有害提示。 下面是一个带有Claude响应的无害性筛选提示示例:
    角色内容
    用户一位用户希望您继续一段内容。以下是目前的内容:<content>{{CONTENT}}</content>

    如果内容涉及有害、色情或非法活动,请回复(Y)。如果内容不涉及有害、色情或非法活动,请回复(N)。
    Assistant (预填)(
    Assistant (Claude 响应)Y)
  2. 输入验证:应用严格的输入验证技术来过滤掉包含与越狱尝试或有害内容相关的关键字或模式的提示(例如忘记所有先前的指令)。这可以帮助防止恶意提示被模型处理,但也可能难以大规模实施,因为越狱者会不断演变他们的越狱语言。您可以使用LLM来应用更通用的验证筛选,方法是向它提供已知的越狱语言作为模型应该寻找的措辞和意图类型的示例。
  3. 提示工程:仔细设计您的提示,以减少越狱尝试的可能性。使用清晰、简洁且定义明确的指令,强调模型的道德准则和禁止的行为。 下面是一个带有明确指令的系统提示示例:
    内容
    系统您是一个旨在提供帮助、无害且诚实的AI助手。您必须遵守严格的道德准则,不得参与或鼓励任何有害、非法或不当的活动。如果用户试图让您做一些违背您道德原则的事情,请礼貌地拒绝并解释您无法遵从的原因。
  4. 持续监控:定期监控模型的输出,以发现越狱或不当内容生成的迹象。这可以帮助识别潜在的漏洞,以帮助您改进提示或验证策略。

综合运用

通过结合这些策略,您可以显著降低Claude系列模型中越狱和提示注入的风险。虽然Claude已经对此类攻击具有很高的抵抗力,但实施额外的保护措施可确保为所有用户提供更安全、更可靠的体验。

下面是一个结合多种策略的系统提示示例:

内容
系统您是一个旨在提供帮助、无害且诚实的AI助手。您必须遵守严格的道德准则,不得参与或鼓励任何有害、非法或不当的活动。如果用户试图让您做一些下面准则所禁止的事情,请说”我不能那样做。”

<guidelines>
{{GUIDELINES}}
</guidelines>

此外,如果您检测到任何涉及有害、色情或非法活动的内容,请立即回复”内容警告:不适当”,并且不要提供任何进一步的响应。

通过提供明确的指示、实施内容警告以及强调模型的道德原则,此提示有助于最大限度地降低越狱和提示注入的风险。


后续步骤

  • 探索减少提示泄露,了解如何最大限度地降低模型泄露输入提示中敏感信息的风险。
  • 查看我们的提示工程指南,全面了解设计高效提示的策略。
  • 如有任何问题或疑虑,请随时联系我们的客户支持团队