Jailbreaking und Prompt-Injections treten auf, wenn Nutzer Prompts erstellen, um Modellschwachstellen auszunutzen, mit dem Ziel, unangemessene Inhalte zu generieren. Obwohl Claude von Natur aus widerstandsfähig gegen solche Angriffe ist, hier sind zusätzliche Schritte zur Stärkung Ihrer Schutzmaßnahmen, insbesondere gegen Verwendungen, die entweder gegen unsere Nutzungsbedingungen oder Nutzungsrichtlinien verstoßen.

Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.
  • Harmlosigkeits-Prüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen.

  • Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um eine generalisierte Validierungsprüfung zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.

  • Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.

Passen Sie Antworten an und erwägen Sie, Nutzer zu drosseln oder zu sperren, die wiederholt missbräuchliches Verhalten zeigen, um Claudes Schutzmaßnahmen zu umgehen. Wenn beispielsweise ein bestimmter Nutzer mehrfach die gleiche Art von Ablehnung auslöst (z.B. “Ausgabe durch Inhaltsfilterrichtlinie blockiert”), teilen Sie dem Nutzer mit, dass seine Handlungen gegen die entsprechenden Nutzungsrichtlinien verstoßen, und ergreifen Sie entsprechende Maßnahmen.

  • Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Anzeichen von Jailbreaking. Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.

Fortgeschritten: Verkettete Schutzmaßnahmen

Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Beispiel auf Unternehmensebene mit Tool-Nutzung:

Durch die Schichtung dieser Strategien schaffen Sie eine robuste Verteidigung gegen Jailbreaking und Prompt-Injections und stellen sicher, dass Ihre Claude-gestützten Anwendungen die höchsten Standards für Sicherheit und Compliance einhalten.