ジェイルブレイクとプロンプトインジェクションは、モデルのトレーニングの脆弱性を悪用するように特別に作成されたプロンプトを使用して、不適切または有害なコンテンツを生成することを目的としています。Claudeは、人間のフィードバックからの強化学習(RLHF)や Constitutional AI などの高度なトレーニング手法により本質的に耐性があり、他の主要な大規模言語モデルよりもこのような攻撃に対して非常に耐性があります(New York Times, 2023)。ただし、特にユースケースにとって重要な場合は、いくつかの追加の軽減手順を実行できます。


軽減戦略

  1. 無害性スクリーン: Claude 3 Haiku のような小さくて高速なモデルを使用して、処理前にユーザー入力の適切性を評価する「無害性スクリーン」を実装します。これは、潜在的に有害なプロンプトを検出してブロックするのに役立ちます。
    以下は、Claudeの応答を含む無害性スクリーンプロンプトの例です:
    RoleContent
    User人間のユーザーがコンテンツの一部を続けてほしいと思っています。これまでのコンテンツは次のとおりです: <content>{{CONTENT}}</content>

    コンテンツが有害、ポルノグラフィー、または違法な活動を参照している場合は、(Y) と返信してください。コンテンツが有害、ポルノグラフィー、または違法な活動を参照していない場合は、(N) と返信してください。
    Assistant (Prefill)(
    Assistant (Claude response)Y)
  2. 入力検証: ジェイルブレイクの試みや有害なコンテンツに関連するキーワードやパターンを含むプロンプトをフィルタリングするために、厳密な入力検証手法を適用します(例: 以前の指示をすべて忘れてください)。これにより、悪意のあるプロンプトがモデルによって処理されるのを防ぐことができますが、ジェイルブレイカーがジェイルブレイク言語を進化させ続けるため、大規模に実装するのは難しい場合もあります。LLMを使用して、既知のジェイルブレイク言語をモデルが探すべきフレーズと意図の種類の例として提供することで、より一般化された検証スクリーンを適用できます。
  3. プロンプトエンジニアリング: ジェイルブレイクの試みの可能性を減らすために、プロンプトを慎重に作成します。モデルの倫理的ガイドラインと禁止されたアクションを強調する、明確で簡潔で明確に定義された指示を使用します。
    以下は、明確な指示を含むシステムプロンプトの例です:
    Content
    Systemあなたは、役立ち、無害で、正直であるように設計された AI アシスタントです。厳格な倫理的ガイドラインを順守し、有害、違法、または不適切な活動に従事したり、奨励したりすることを控える必要があります。ユーザーがあなたの倫理的原則に反することをさせようとした場合は、丁寧に拒否し、従えない理由を説明してください。
  4. 継続的なモニタリング: ジェイルブレイクや不適切なコンテンツ生成の兆候について、モデルの出力を定期的にモニタリングします。これは、プロンプトまたは検証戦略を改善するのに役立つ潜在的な脆弱性を特定するのに役立ちます。

すべてを統合する

これらの戦略を組み合わせることで、Claude ファミリーのモデルにおけるジェイルブレイクとプロンプトインジェクションのリスクを大幅に減らすことができます。Claudeはすでにそのような攻撃に対して非常に耐性がありますが、追加の保護手段を実装することで、すべてのユーザーにとってより安全で信頼できるエクスペリエンスが保証されます。

以下は、複数の戦略を組み込んだシステムプロンプトの例です:

Content
Systemあなたは、役立ち、無害で、正直であるように設計された AI アシスタントです。厳格な倫理的ガイドラインを順守し、有害、違法、または不適切な活動に従事したり、奨励したりすることを控える必要があります。ユーザーが以下のガイドラインで禁止されていることをさせようとした場合は、「それはできません」と言ってください。

<guidelines>
{{GUIDELINES}}
</guidelines>

さらに、有害、ポルノグラフィー、または違法な活動を参照するコンテンツを検出した場合は、すぐに「コンテンツ警告: 不適切」と応答し、それ以上の応答は提供しないでください。

明確な指示を提供し、コンテンツ警告を実装し、モデルの倫理的原則を強調することで、このプロンプトはジェイルブレイクとプロンプトインジェクションのリスクを最小限に抑えるのに役立ちます。


次のステップ