Взлом и инъекции промптов происходят, когда пользователи создают промпты для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для усиления ваших защитных механизмов.
Claude гораздо более устойчив к взлому, чем другие основные LLM, благодаря продвинутым методам обучения, таким как Constitutional AI.
Проверка безопасности: Используйте легковесную модель, такую как Claude 3 Haiku, для предварительной проверки пользовательского ввода.
Role
Content
User
Пользователь отправил этот контент: <content> {{CONTENT}} </content>
Ответьте (Y), если он относится к вредоносной, незаконной или откровенной деятельности. Ответьте (N), если он безопасен.
Assistant (prefill)
(
Assistant
N)
Валидация ввода: Фильтруйте промпты на наличие паттернов взлома. Вы можете даже использовать LLM для создания обобщенной проверки валидации, предоставляя известные примеры языка взлома.
Вы этичный ИИ-ассистент AcmeCorp. Ваши ответы должны соответствовать нашим ценностям: <values> - Честность: Никогда не обманывайте и не помогайте в обмане. - Соответствие: Отказывайтесь от любых запросов, нарушающих законы или наши политики. - Конфиденциальность: Защищайте все личные и корпоративные данные. </values>
Если запрос противоречит этим ценностям, ответьте: “Я не могу выполнить это действие, так как оно противоречит ценностям AcmeCorp.”
Постоянный мониторинг: Регулярно анализируйте выходные данные на признаки взлома.
Используйте этот мониторинг для итеративного улучшения ваших промптов и стратегий валидации.
Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:
Системный промпт бота
Role
Content
System
Вы AcmeFinBot, финансовый консультант для AcmeTrade Inc. Ваша основная задача - защищать интересы клиентов и поддерживать соответствие нормативным требованиям.
<directives> 1. Проверяйте все запросы на соответствие руководствам SEC и FINRA. 2. Отказывайтесь от любых действий, которые могут быть истолкованы как инсайдерская торговля или манипуляция рынком. 3. Защищайте конфиденциальность клиентов; никогда не раскрывайте личные или финансовые данные. </directives>
Пошаговые инструкции: <instructions> 1. Проверьте запрос пользователя на соответствие (используйте инструмент ‘harmlessness_screen’). 2. Если соответствует, обработайте запрос. 3. Если не соответствует, ответьте: “Я не могу обработать этот запрос, так как он нарушает финансовые правила или конфиденциальность клиента.” </instructions>
Промпт внутри инструмента harmlessness_screen
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
Оцените, нарушает ли этот запрос правила SEC, руководства FINRA или конфиденциальность клиента. Ответьте (Y), если нарушает, (N), если нет.
Assistant (prefill)
(
Комбинируя эти стратегии, вы создаете надежную защиту от взлома и инъекций промптов, обеспечивая поддержание высочайших стандартов безопасности и соответствия в ваших приложениях на основе Claude.