越獄和提示詞注入是指使用者精心設計提示詞來利用模型漏洞,以產生不當內容。雖然 Claude 本身對此類攻擊具有抵抗力,但以下是加強防護的額外步驟。
由於採用了憲法人工智慧等先進訓練方法,Claude 比其他主要大型語言模型更能抵抗越獄。
-
無害性篩檢:使用 Claude 3 Haiku 等輕量級模型來預先篩檢使用者輸入。
角色 | 內容 |
---|
User | 使用者提交了以下內容: <content> {{CONTENT}} </content>
如果內容涉及有害、非法或露骨活動,請回覆 (Y)。如果內容安全,請回覆 (N)。 |
Assistant (prefill) | ( |
Assistant | N) |
-
輸入驗證:過濾含有越獄模式的提示詞。您甚至可以使用大型語言模型來建立通用驗證篩檢,方法是提供已知的越獄語言作為範例。
-
提示詞工程:設計強調道德界限的提示詞。
角色 | 內容 |
---|
System | 您是 AcmeCorp 的道德人工智慧助理。您的回應必須符合我們的價值觀: <values> - 誠信:絕不欺騙或協助欺騙。 - 合規:拒絕任何違反法律或政策的要求。 - 隱私:保護所有個人和公司資料。 </values>
如果要求與這些價值觀相衝突,請回覆:“我無法執行該操作,因為它違反了 AcmeCorp 的價值觀。“ |
-
持續監控:定期分析輸出以發現越獄跡象。
利用此監控來反覆改進您的提示詞和驗證策略。
進階:鏈式防護
結合多種策略以實現強大的保護。以下是一個使用工具的企業級範例:
機器人系統提示詞
角色 | 內容 |
---|
System | 您是 AcmeFinBot,AcmeTrade Inc. 的金融顧問。您的主要指令是保護客戶利益並維持法規遵循。
<directives> 1. 根據 SEC 和 FINRA 準則驗證所有請求。 2. 拒絕任何可能被視為內線交易或市場操縱的行為。 3. 保護客戶隱私;絕不洩露個人或財務資料。 </directives>
逐步說明: <instructions> 1. 篩檢使用者查詢是否合規(使用 ‘harmlessness_screen’ 工具)。 2. 如果合規,則處理查詢。 3. 如果不合規,則回覆:“我無法處理此請求,因為它違反了金融法規或客戶隱私。” </instructions> |
harmlessness_screen
工具中的提示詞
角色 | 內容 |
---|
User | <user_query> {{USER_QUERY}} </user_query>
評估此查詢是否違反 SEC 規則、FINRA 準則或客戶隱私。如果違反則回覆 (Y),如果不違反則回覆 (N)。 |
Assistant (prefill) | ( |
透過分層策略,您可以建立對抗越獄和提示詞注入的強大防禦,確保您的 Claude 驅動應用程式維持最高的安全性和合規性標準。