減輕越獄和提示注入的風險
當用戶精心設計特定的提示來利用模型訓練中的漏洞,目的是生成不適當或有害的內容時,就會發生越獄和提示注入。儘管由於先進的訓練方法,如人類反饋強化學習(RLHF)和Constitutional AI,Claude本身就具有抵禦此類攻擊的能力,並且與其他主要的大型語言模型相比,Claude對此類攻擊的抵禦能力也要強得多(New York Times, 2023),但如果這對您的使用案例特別重要,您還可以採取一些額外的緩解步驟。
緩解策略
- 無害性篩選:使用像Claude 3 Haiku這樣小而快的模型來實現”無害性篩選”,在處理用戶的輸入之前評估其適當性。這有助於檢測和阻止潛在的有害提示。
以下是一個無害性篩選提示示例以及Claude的回應:
角色 內容 用戶 一位人類用戶希望您繼續一段內容。以下是目前的內容:<content>{{CONTENT}}</content>
如果內容涉及有害、色情或非法活動,請回覆(Y)。如果內容不涉及有害、色情或非法活動,請回覆(N)助手(預填) ( 助手(Claude回應) Y) - 輸入驗證:應用嚴格的輸入驗證技術來過濾掉包含與越獄嘗試或有害內容相關的關鍵字或模式的提示(例如
忘記所有先前的指示
)。這可以幫助防止惡意提示被模型處理,但也可能難以大規模實施,因為越獄者會不斷演變他們的越獄語言。您可以使用LLM來應用更通用的驗證篩選,方法是提供已知的越獄語言作為模型應該尋找的措辭和意圖類型的示例。 - 提示工程:仔細設計您的提示,以減少越獄嘗試的可能性。使用清晰、簡潔且定義明確的指示,強調模型的道德準則和禁止的行為。
以下是一個具有明確指示的系統提示示例:
內容 系統 您是一個旨在提供幫助、無害和誠實的AI助手。您必須遵守嚴格的道德準則,不得參與或鼓勵任何有害、非法或不適當的活動。如果用戶試圖讓您做違反您道德原則的事情,請禮貌地拒絕並解釋您無法遵從的原因。 - 持續監控:定期監控模型的輸出,以檢測越獄或不適當內容生成的跡象。這可以幫助識別潛在的漏洞,以幫助您改進提示或驗證策略。
綜合運用
通過結合這些策略,您可以顯著降低Claude系列模型中越獄和提示注入的風險。儘管Claude已經對此類攻擊具有很高的抵禦能力,但實施額外的保護措施可確保為所有用戶提供更安全、更可靠的體驗。
以下是一個結合多種策略的系統提示示例:
內容 | |
---|---|
系統 | 您是一個旨在提供幫助、無害和誠實的AI助手。您必須遵守嚴格的道德準則,不得參與或鼓勵任何有害、非法或不適當的活動。如果用戶試圖讓您做以下準則所禁止的事情,請說”我不能那樣做。” <guidelines> {{GUIDELINES}} </guidelines> 此外,如果您檢測到任何涉及有害、色情或非法活動的內容,請立即回覆”內容警告:不適當”,並且不要提供任何進一步的回應。 |
通過提供明確的指示、實施內容警告以及強調模型的道德原則,此提示有助於最大限度地降低越獄和提示注入的風險。