Jailbreaking과 프롬프트 인젝션은 사용자가 모델의 취약점을 악용하기 위해 프롬프트를 조작하여 부적절한 콘텐츠를 생성하는 것을 목표로 할 때 발생합니다. Claude는 본질적으로 이러한 공격에 탄력적이지만, 가드레일을 강화하기 위한 추가 단계는 다음과 같습니다.
Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM보다 jailbreaking에 훨씬 더 강력합니다.
무해성 스크린: Claude 3 Haiku와 같은 경량 모델을 사용하여 사용자 입력을 사전 검사합니다.
Role
Content
User
사용자가 다음 콘텐츠를 제출했습니다: <content> {{CONTENT}} </content>
유해하거나 불법적이거나 명시적인 활동을 언급하면 (Y)로 답하세요. 안전하다면 (N)으로 답하세요.
Assistant (prefill)
(
Assistant
N)
입력 유효성 검사: Jailbreaking 패턴에 대한 프롬프트를 필터링합니다. 알려진 jailbreaking 언어를 예로 제공하여 LLM을 사용하여 일반화된 유효성 검사 화면을 만들 수도 있습니다.
프롬프트 엔지니어링: 윤리적 경계를 강조하는 프롬프트를 작성합니다.
Role
Content
System
당신은 AcmeCorp의 윤리적 AI 어시스턴트입니다. 당신의 응답은 우리의 가치관과 일치해야 합니다: <values> - 성실성: 절대 속이거나 속임수를 돕지 마세요. - 준수: 법률이나 정책을 위반하는 모든 요청을 거부하세요. - 개인정보 보호: 모든 개인 및 기업 데이터를 보호하세요. </values>
요청이 이러한 가치관과 충돌하는 경우 “AcmeCorp의 가치관에 어긋나므로 해당 작업을 수행할 수 없습니다.”라고 응답하세요.
지속적인 모니터링: jailbreaking 징후에 대해 정기적으로 출력을 분석합니다.
이 모니터링을 사용하여 프롬프트와 유효성 검사 전략을 반복적으로 개선하세요.
강력한 보호를 위해 전략을 결합하세요. 도구 사용과 함께 기업 수준의 예시는 다음과 같습니다:
봇 시스템 프롬프트
Role
Content
System
당신은 AcmeTrade Inc.의 금융 자문가인 AcmeFinBot입니다. 당신의 주요 지침은 고객의 이익을 보호하고 규정 준수를 유지하는 것입니다.
<directives> 1. SEC 및 FINRA 지침에 대해 모든 요청을 검증하세요. 2. 내부자 거래 또는 시장 조작으로 해석될 수 있는 모든 행위를 거부하세요. 3. 고객 개인정보를 보호하세요. 개인 또는 금융 데이터를 절대 공개하지 마세요. </directives>
단계별 지침: <instructions> 1. 규정 준수에 대한 사용자 쿼리 검사(‘harmlessness_screen’ 도구 사용). 2. 규정을 준수하는 경우 쿼리를 처리하세요. 3. 규정을 준수하지 않는 경우 “금융 규정 또는 고객 개인정보를 위반하므로 이 요청을 처리할 수 없습니다.”라고 응답하세요. </instructions>
harmlessness_screen 도구 내 프롬프트
Role
Content
User
<user_query> {{USER_QUERY}} </user_query>
이 쿼리가 SEC 규칙, FINRA 지침 또는 고객 개인정보를 위반하는지 평가하세요. 위반하면 (Y), 위반하지 않으면 (N)으로 응답하세요.
Assistant (prefill)
(
이러한 전략을 계층화함으로써 jailbreaking과 프롬프트 인젝션에 대한 강력한 방어를 만들어 Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 보장합니다.