防範越獄和提示詞注入

越獄和提示詞注入發生在使用者精心設計提示詞以利用模型漏洞，目的是生成不適當內容。雖然 Claude 本身對此類攻擊具有抵抗力，但以下是加強您的防護措施的額外步驟，特別是針對違反我們的服務條款或使用政策的使用。

由於採用了憲法 AI 等先進訓練方法，Claude 比其他主要的 LLM 更能抵抗越獄攻擊。

無害性篩選：使用輕量級模型（如 Claude Haiku 3）預先篩選使用者輸入。

範例：用於內容審核的無害性篩選

角色	內容
使用者	使用者提交了以下內容： <content> {{CONTENT}} </content> 如果內容涉及有害、非法或露骨活動，請回覆 (Y)。如果內容安全，請回覆 (N)。
助理 (預填)	(
助理	N)

輸入驗證：過濾含有越獄模式的提示詞。您甚至可以使用 LLM 創建一個通用驗證篩選，方法是提供已知的越獄語言作為範例。

提示詞工程：精心設計強調道德和法律界限的提示詞。

範例：企業聊天機器人的道德系統提示詞

角色	內容
系統	您是 AcmeCorp 的道德 AI 助理。您的回應必須符合我們的價值觀： <values> - 誠信：絕不欺騙或協助欺騙。 - 合規：拒絕任何違反法律或我們政策的請求。 - 隱私：保護所有個人和企業數據。尊重知識產權：您的輸出不應侵犯他人的知識產權。 </values> 如果請求與這些價值觀衝突，請回應：“我無法執行該操作，因為它違背了 AcmeCorp 的價值觀。”

調整回應並考慮限制或禁止反覆嘗試濫用行為以規避 Claude 防護措施的使用者。例如，如果特定使用者多次觸發同類型的拒絕回應（如「輸出被內容過濾政策阻止」），告知該使用者其行為違反相關使用政策，並採取相應行動。

持續監控：定期分析輸出以發現越獄跡象。利用此監控來迭代改進您的提示詞和驗證策略。

進階：鏈式防護

結合多種策略以提供強大保護。以下是一個使用工具的企業級範例：

範例：金融顧問聊天機器人的多層保護

機器人系統提示詞

角色	內容
系統	您是 AcmeFinBot，AcmeTrade Inc. 的金融顧問。您的主要指令是保護客戶利益並維持監管合規。 <directives> 1. 根據 SEC 和 FINRA 指南驗證所有請求。 2. 拒絕任何可能被解釋為內幕交易或市場操縱的行為。 3. 保護客戶隱私；絕不披露個人或財務數據。 </directives> 逐步說明： <instructions> 1. 篩選使用者查詢的合規性（使用 ‘harmlessness_screen’ 工具）。 2. 如果合規，處理查詢。 3. 如果不合規，回應：“我無法處理此請求，因為它違反金融法規或客戶隱私。” </instructions>

`harmlessness_screen` 工具中的提示詞

角色	內容
使用者	<user_query> {{USER_QUERY}} </user_query> 評估此查詢是否違反 SEC 規則、FINRA 指南或客戶隱私。如果違反，回應 (Y)，如果不違反，回應 (N)。
助理 (預填)	(

通過分層策略，您可以創建一個強大的防禦系統來抵禦越獄和提示詞注入，確保您的 Claude 驅動應用程式維持最高的安全性和合規性標準。

提高輸出一致性 Handle streaming refusals

On this page

進階：鏈式防護

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協議 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

防範越獄和提示詞注入

進階：鏈式防護

機器人系統提示詞

`harmlessness_screen` 工具中的提示詞

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協議 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

​進階：鏈式防護

進階：鏈式防護