Взлом и инъекции промптов происходят, когда пользователи создают запросы для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для усиления ваших защитных механизмов, особенно против использования, которое нарушает наши Условия предоставления услуг или Политику использования.

Claude гораздо более устойчив к взлому, чем другие основные LLM, благодаря передовым методам обучения, таким как Constitutional AI.
  • Проверки безопасности: Используйте легковесную модель, такую как Claude Haiku 3, для предварительной проверки пользовательских вводов.

  • Валидация ввода: Фильтруйте промпты на наличие паттернов взлома. Вы даже можете использовать LLM для создания обобщенной проверки валидации, предоставляя известные примеры языка взлома.

  • Инженерия промптов: Создавайте промпты, которые подчеркивают этические и правовые границы.

Корректируйте ответы и рассматривайте возможность ограничения или блокировки пользователей, которые неоднократно участвуют в злоупотреблениях, пытаясь обойти защитные механизмы Claude. Например, если определенный пользователь многократно вызывает один и тот же тип отказа (например, “вывод заблокирован политикой фильтрации контента”), сообщите пользователю, что его действия нарушают соответствующие политики использования, и примите соответствующие меры.

  • Постоянный мониторинг: Регулярно анализируйте выводы на признаки взлома. Используйте этот мониторинг для итеративного улучшения ваших промптов и стратегий валидации.

Продвинутый уровень: Цепочки защиты

Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:

Комбинируя эти стратегии, вы создаете надежную защиту от взлома и инъекций промптов, обеспечивая соответствие ваших приложений на базе Claude самым высоким стандартам безопасности и соответствия требованиям.