加强防护措施
减少提示词泄露
提示词泄露可能会暴露您期望在提示词中”隐藏”的敏感信息。虽然没有任何方法是万无一失的,但以下策略可以显著降低风险。
在尝试减少提示词泄露之前
我们建议仅在绝对必要时才使用防泄露的提示词工程策略。试图使提示词防泄露可能会增加复杂性,由于增加了 LLM 整体任务的复杂性,可能会降低任务其他部分的性能。
如果您决定实施防泄露技术,请务必彻底测试您的提示词,以确保增加的复杂性不会对模型的性能或输出质量产生负面影响。
首先尝试监控技术,如输出筛查和后处理,以试图捕获提示词泄露的实例。
减少提示词泄露的策略
- 将上下文与查询分开:
您可以尝试使用系统提示词来将关键信息和上下文与用户查询隔离。您可以在
User
轮次中强调关键指令,然后通过预填充Assistant
轮次来重新强调这些指令。
- 使用后处理:过滤 Claude 的输出中可能表明泄露的关键词。技术包括使用正则表达式、关键词过滤或其他文本处理方法。
您也可以使用提示型 LLM 来过滤更微妙的泄露输出。
- 避免不必要的专有细节:如果 Claude 不需要它来执行任务,就不要包含它。额外的内容会分散 Claude 对”不泄露”指令的注意力。
- 定期审核:定期检查您的提示词和 Claude 的输出是否存在潜在泄露。
请记住,目标不仅是防止泄露,还要保持 Claude 的性能。过于复杂的泄露预防可能会降低结果质量。平衡是关键。