提示詞洩漏可能會暴露您預期在提示詞中「隱藏」的敏感信息。雖然沒有任何方法是萬無一失的,但以下策略可以顯著降低風險。

在嘗試減少提示詞洩漏之前

我們建議僅在絕對必要時才使用防洩漏的提示詞工程策略。試圖使提示詞防洩漏可能會增加複雜性,由於增加了 LLM 整體任務的複雜性,可能會降低任務其他部分的性能。

如果您決定實施防洩漏技術,請務必徹底測試您的提示詞,以確保增加的複雜性不會對模型的性能或輸出質量產生負面影響。

首先嘗試監控技術,如輸出篩選和後處理,以試圖捕捉提示詞洩漏的實例。

減少提示詞洩漏的策略

  • 將上下文與查詢分開: 您可以嘗試使用系統提示詞來將關鍵信息和上下文與用戶查詢隔離。您可以在 User 回合中強調關鍵指令,然後通過預填充 Assistant 回合來重新強調這些指令。
  • 使用後處理:過濾 Claude 的輸出中可能表明洩漏的關鍵字。技術包括使用正則表達式、關鍵字過濾或其他文本處理方法。
    您也可以使用提示型 LLM 來過濾更微妙的洩漏輸出。
  • 避免不必要的專有細節:如果 Claude 不需要它來執行任務,就不要包含它。額外的內容會分散 Claude 對「不洩漏」指令的注意力。
  • 定期審核:定期檢查您的提示詞和 Claude 的輸出是否存在潛在洩漏。

請記住,目標不僅是防止洩漏,還要維持 Claude 的性能。過於複雜的洩漏預防可能會降低結果質量。平衡是關鍵。