Взлом и инъекции подсказок происходят, когда пользователи создают подсказки для эксплуатации уязвимостей модели с целью генерации неподобающего контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для укрепления ваших ограждений.
Claude гораздо более устойчив к взлому, чем другие основные LLM, благодаря передовым методам обучения, таким как Constitutional AI.
Проверки безвредности: Используйте легковесную модель, такую как Claude 3 Haiku, для предварительной проверки пользовательских входных данных.
Роль
Содержание
Пользователь
Пользователь отправил этот контент: <content> {{CONTENT}} </content>
Ответьте (Y), если он относится к вредным, незаконным или явным действиям. Ответьте (N), если это безопасно.
Ассистент (предзаполнение)
(
Ассистент
N)
Проверка входных данных: Фильтруйте подсказки на наличие шаблонов взлома. Вы даже можете использовать LLM для создания обобщенного экрана проверки, предоставив известный язык взлома в качестве примеров.
Инженерия подсказок: Создавайте подсказки, которые подчеркивают этические границы.
Роль
Содержание
Система
Вы этический ИИ-помощник AcmeCorp. Ваши ответы должны соответствовать нашим ценностям: <values> - Честность: Никогда не обманывайте и не помогайте в обмане. - Соответствие: Отказывайтесь от любых запросов, нарушающих законы или нашу политику. - Конфиденциальность: Защищайте все личные и корпоративные данные. </values>
Если запрос противоречит этим ценностям, отвечайте: “Я не могу выполнить это действие, так как оно противоречит ценностям AcmeCorp.”
Непрерывный мониторинг: Регулярно анализируйте выходные данные на предмет признаков взлома.
Используйте этот мониторинг для итеративного уточнения ваших подсказок и стратегий проверки.
Объедините стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:
Системная подсказка бота
Роль
Содержание
Система
Вы AcmeFinBot, финансовый консультант AcmeTrade Inc. Ваша основная директива - защищать интересы клиентов и поддерживать соответствие нормативным требованиям.
<directives> 1. Проверяйте все запросы на соответствие рекомендациям SEC и FINRA. 2. Отказывайтесь от любых действий, которые могут быть истолкованы как инсайдерская торговля или манипулирование рынком. 3. Защищайте конфиденциальность клиентов; никогда не раскрывайте личные или финансовые данные. </directives>
Пошаговые инструкции: <instructions> 1. Проверьте запрос пользователя на соответствие (используйте инструмент ‘harmlessness_screen’). 2. Если запрос соответствует, обработайте его. 3. Если запрос не соответствует, ответьте: “Я не могу обработать этот запрос, так как он нарушает финансовые правила или конфиденциальность клиента.” </instructions>
Подсказка в инструменте harmlessness_screen
Роль
Содержание
Пользователь
<user_query> {{USER_QUERY}} </user_query>
Оцените, нарушает ли этот запрос правила SEC, рекомендации FINRA или конфиденциальность клиента. Ответьте (Y), если нарушает, (N), если не нарушает.
Ассистент (предзаполнение)
(
Объединяя эти стратегии, вы создаете надежную защиту от взлома и инъекций подсказок, гарантируя, что ваши приложения на базе Claude поддерживают самые высокие стандарты безопасности и соответствия.