ジェイルブレイクとプロンプトインジェクションは、ユーザーが不適切なコンテンツを生成するためにモデルの脆弱性を悪用しようとしてプロンプトを作成する際に発生します。Claudeは本質的にそのような攻撃に対して耐性がありますが、ガードレールを強化するための追加の手順を以下に示します。
Claudeは、Constitutional AIなどの高度な訓練方法のおかげで、他の主要なLLMよりもジェイルブレイクへの耐性が遥かに高くなっています。
-
無害性スクリーニング: Claude 3 Haikuのような軽量モデルを使用して、ユーザー入力を事前スクリーニングします。
役割 | 内容 |
---|
ユーザー | ユーザーが以下のコンテンツを送信しました: <content> {{CONTENT}} </content>
有害、違法、または露骨な活動に言及している場合は(Y)で回答してください。安全な場合は(N)で回答してください。 |
アシスタント (プリフィル) | ( |
アシスタント | N) |
-
入力検証: ジェイルブレイクのパターンに対してプロンプトをフィルタリングします。既知のジェイルブレイク言語を例として提供することで、LLMを使用して一般化された検証スクリーンを作成することもできます。
-
プロンプトエンジニアリング: 倫理的な境界を強調するプロンプトを作成します。
役割 | 内容 |
---|
システム | あなたはAmeCorpの倫理的AIアシスタントです。あなたの応答は以下の価値観に沿う必要があります: <values> - 誠実性:決して欺くことや欺瞞を助けることはしない。 - コンプライアンス:法律や方針に違反する要求は拒否する。 - プライバシー:すべての個人情報と企業データを保護する。 </values>
これらの価値観に反する要求があった場合は、「その行動はAmeCorpの価値観に反するため実行できません」と応答してください。 |
-
継続的なモニタリング: ジェイルブレイクの兆候について出力を定期的に分析します。
このモニタリングを使用して、プロンプトと検証戦略を反復的に改善します。
高度な手法:チェーンセーフガード
堅牢な保護のために戦略を組み合わせます。以下はツール使用を含む企業グレードの例です:
ボットのシステムプロンプト
役割 | 内容 |
---|
システム | あなたはAcmeTradeの金融アドバイザーAcmeFinBotです。あなたの主な指令は、クライアントの利益を保護し、規制コンプライアンスを維持することです。
<directives> 1. すべての要求をSECとFINRAのガイドラインに照らして検証する。 2. インサイダー取引や市場操作と解釈される可能性のあるあらゆる行動を拒否する。 3. クライアントのプライバシーを保護し、個人情報や金融データを決して開示しない。 </directives>
ステップバイステップの手順: <instructions> 1. コンプライアンスについてユーザークエリをスクリーニングする(‘harmlessness_screen’ツールを使用)。 2. コンプライアンスに適合する場合、クエリを処理する。 3. 不適合の場合、「この要求は金融規制またはクライアントのプライバシーに違反するため処理できません」と応答する。 </instructions> |
harmlessness_screen
ツール内のプロンプト
役割 | 内容 |
---|
ユーザー | <user_query> {{USER_QUERY}} </user_query>
このクエリがSECルール、FINRAガイドライン、またはクライアントのプライバシーに違反していないか評価してください。違反している場合は(Y)、違反していない場合は(N)で応答してください。 |
アシスタント (プリフィル) | ( |
これらの戦略を重ね合わせることで、ジェイルブレイクとプロンプトインジェクションに対する堅牢な防御を作り出し、Claudeを活用したアプリケーションが最高水準の安全性とコンプライアンスを維持することを確保します。