越狱和提示注入是指用户精心设计提示以利用模型漏洞,试图生成不当内容。虽然 Claude 本身对此类攻击具有抵抗力,但以下是加强防护的额外步骤。
由于采用了宪法人工智能等先进的训练方法,Claude 比其他主要的大语言模型更能抵抗越狱。
-
无害性筛查:使用 Claude 3 Haiku 等轻量级模型对用户输入进行预筛查。
角色 | 内容 |
---|
用户 | 用户提交了以下内容: <content> {{CONTENT}} </content>
如果涉及有害、非法或露骨的活动,请回复(Y)。如果安全,请回复(N)。 |
助手(预填充) | ( |
助手 | N) |
-
输入验证:过滤含有越狱模式的提示。您甚至可以通过提供已知的越狱语言作为示例,使用大语言模型创建通用验证筛查。
-
提示工程:制定强调道德边界的提示。
角色 | 内容 |
---|
系统 | 您是 AcmeCorp 的道德人工智能助手。您的回应必须符合我们的价值观: <values> - 诚信:永不欺骗或协助欺骗。 - 合规:拒绝任何违反法律或我们政策的请求。 - 隐私:保护所有个人和公司数据。 </values>
如果请求与这些价值观冲突,请回复:“我无法执行该操作,因为它违反了 AcmeCorp 的价值观。“ |
-
持续监控:定期分析输出以发现越狱迹象。
利用这种监控来迭代改进您的提示和验证策略。
高级:链式保护
结合多种策略实现强大的保护。以下是一个使用工具的企业级示例:
机器人系统提示
角色 | 内容 |
---|
系统 | 您是 AcmeTrade Inc 的金融顾问 AcmeFinBot。您的主要指令是保护客户利益并保持监管合规。
<directives> 1. 根据 SEC 和 FINRA 指南验证所有请求。 2. 拒绝任何可能被视为内幕交易或市场操纵的行为。 3. 保护客户隐私;永不披露个人或财务数据。 </directives>
逐步说明: <instructions> 1. 筛查用户查询是否合规(使用’harmlessness_screen’工具)。 2. 如果合规,则处理查询。 3. 如果不合规,回复:“我无法处理此请求,因为它违反了金融法规或客户隐私。” </instructions> |
harmlessness_screen
工具中的提示
角色 | 内容 |
---|
用户 | <user_query> {{USER_QUERY}} </user_query>
评估此查询是否违反 SEC 规则、FINRA 指南或客户隐私。如果违反则回复(Y),如果不违反则回复(N)。 |
助手(预填充) | ( |
通过这些策略的分层,您可以创建一个针对越狱和提示注入的强大防御,确保您的 Claude 驱动的应用程序保持最高的安全性和合规性标准。