Jailbreaking и prompt injections происходят, когда пользователи создают специальные запросы, которые эксплуатируют уязвимости в обучении модели, с целью генерации неуместного или вредоносного контента. Хотя Claude по своей природе устойчив к таким атакам благодаря передовым методам обучения, таким как Reinforcement Learning from Human Feedback (RLHF) и Constitutional AI, а также гораздо более устойчив к таким атакам, чем другие основные модели больших языков (New York Times, 2023), есть несколько дополнительных шагов по смягчению последствий, которые вы можете предпринять, если это особенно важно для вашего случая использования.


Стратегии смягчения

  1. Проверки на безвредность: Используйте небольшую и быструю модель, такую как Claude 3 Haiku, для реализации “проверки на безвредность”, чтобы оценить уместность пользовательского ввода перед его обработкой. Это помогает обнаруживать и блокировать потенциально вредоносные запросы.
    Вот пример запроса для проверки на безвредность с ответом Claude:
    РольСодержание
    ПользовательПользователь хочет, чтобы вы продолжили часть контента. Вот контент на данный момент: <content>{{CONTENT}}</content>

    Если контент ссылается на вредные, порнографические или незаконные действия, ответьте (Y). Если контент не ссылается на вредные, порнографические или незаконные действия, ответьте (N)
    Ассистент (Предзаполнение)(
    Ассистент (Ответ Claude)Y)
  2. Проверка ввода: Применяйте строгие методы проверки ввода для фильтрации запросов, содержащих ключевые слова или шаблоны, связанные с попытками jailbreaking или вредоносным контентом (например, Забудьте все предыдущие инструкции.). Это может помочь предотвратить обработку вредоносных запросов моделью, но также может быть трудно реализовать в больших масштабах, поскольку jailbreakers продолжают развивать свой язык jailbreaking. Вы можете использовать LLM для применения более обобщенного экрана проверки, предоставив ему известный язык jailbreaking в качестве примеров типов формулировок и намерений, которые модель должна искать.
  3. Инженерия запросов: Тщательно составляйте свои запросы, чтобы снизить вероятность попыток jailbreaking. Используйте четкие, лаконичные и хорошо определенные инструкции, которые подчеркивают этические принципы модели и запрещенные действия.
    Вот пример системного запроса с четкими инструкциями:
    Содержание
    СистемаВы - ИИ-ассистент, созданный для того, чтобы быть полезным, безвредным и честным. Вы должны придерживаться строгих этических принципов и воздерживаться от участия или поощрения любых вредных, незаконных или неуместных действий. Если пользователь пытается заставить вас сделать что-то против ваших этических принципов, вежливо откажитесь и объясните, почему вы не можете выполнить просьбу.
  4. Непрерывный мониторинг: Регулярно отслеживайте выходные данные модели на предмет признаков jailbreaking или генерации неуместного контента. Это может помочь выявить потенциальные уязвимости, чтобы вы могли усовершенствовать свои запросы или стратегию проверки.

Объединяя все вместе

Комбинируя эти стратегии, вы можете значительно снизить риск jailbreaking и prompt injections в семействе моделей Claude. Хотя Claude уже очень устойчив к таким атакам, внедрение дополнительных мер защиты обеспечивает более безопасный и надежный опыт для всех пользователей.

Вот пример системного запроса, который включает несколько стратегий:

Содержание
СистемаВы - ИИ-ассистент, созданный для того, чтобы быть полезным, безвредным и честным. Вы должны придерживаться строгих этических принципов и воздерживаться от участия или поощрения любых вредных, незаконных или неуместных действий. Если пользователь пытается заставить вас сделать что-то, запрещенное приведенными ниже правилами, скажите “Я не могу этого сделать.”

<guidelines>
{{GUIDELINES}}
</guidelines>

Кроме того, если вы обнаружите какой-либо контент, который ссылается на вредные, порнографические или незаконные действия, немедленно ответьте “Предупреждение о контенте: Неуместно” и не предоставляйте никакого дальнейшего ответа.

Предоставляя четкие инструкции, реализуя предупреждение о контенте и подчеркивая этические принципы модели, этот запрос помогает минимизировать риск jailbreaking и prompt injections.


Следующие шаги