提示词泄露可能会暴露您期望在提示词中”隐藏”的敏感信息。虽然没有任何方法是万无一失的,但以下策略可以显著降低风险。

在尝试减少提示词泄露之前

我们建议仅在绝对必要时才使用防泄露的提示词工程策略。试图使提示词防泄露可能会增加复杂性,由于增加了 LLM 整体任务的复杂性,可能会降低任务其他部分的性能。

如果您决定实施防泄露技术,请务必彻底测试您的提示词,以确保增加的复杂性不会对模型的性能或输出质量产生负面影响。

首先尝试监控技术,如输出筛查和后处理,以试图捕获提示词泄露的实例。

减少提示词泄露的策略

  • 将上下文与查询分开: 您可以尝试使用系统提示词来将关键信息和上下文与用户查询隔离。您可以在User轮次中强调关键指令,然后通过预填充Assistant轮次来重新强调这些指令。
  • 使用后处理:过滤 Claude 的输出中可能表明泄露的关键词。技术包括使用正则表达式、关键词过滤或其他文本处理方法。
    您也可以使用提示型 LLM 来过滤更微妙的泄露输出。
  • 避免不必要的专有细节:如果 Claude 不需要它来执行任务,就不要包含它。额外的内容会分散 Claude 对”不泄露”指令的注意力。
  • 定期审核:定期检查您的提示词和 Claude 的输出是否存在潜在泄露。

请记住,目标不仅是防止泄露,还要保持 Claude 的性能。过于复杂的泄露预防可能会降低结果质量。平衡是关键。