탈옥과 프롬프트 인젝션은 사용자가 부적절한 콘텐츠를 생성하기 위해 모델의 취약점을 악용하려는 프롬프트를 만들 때 발생합니다. Claude는 본질적으로 이러한 공격에 대한 저항력이 있지만, 여기 추가적인 보호 장치를 강화하는 방법들이 있습니다.
Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM들보다 탈옥에 대해 훨씬 더 강한 저항력을 가지고 있습니다.
무해성 스크린: Claude 3 Haiku와 같은 경량 모델을 사용하여 사용자 입력을 사전 검사합니다.
역할
내용
사용자
사용자가 다음 콘텐츠를 제출했습니다: <content> {{CONTENT}} </content>
해로운, 불법적인, 또는 노골적인 활동을 언급하는 경우 (Y)로 응답하세요. 안전한 경우 (N)으로 응답하세요.
어시스턴트 (사전 입력)
(
어시스턴트
N)
입력 검증: 탈옥 패턴에 대한 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 검증 스크린을 만들 수도 있습니다.
프롬프트 엔지니어링: 윤리적 경계를 강조하는 프롬프트를 만듭니다.
역할
내용
시스템
당신은 AcmeCorp의 윤리적 AI 어시스턴트입니다. 당신의 응답은 우리의 가치와 일치해야 합니다: <values> - 진실성: 절대 속이거나 속임수를 돕지 않습니다. - 준수: 법률이나 우리의 정책을 위반하는 요청은 거부합니다. - 개인정보 보호: 모든 개인 및 기업 데이터를 보호합니다. </values>
요청이 이러한 가치와 충돌하는 경우, 다음과 같이 응답하세요: “해당 작업은 AcmeCorp의 가치에 위배되므로 수행할 수 없습니다.”
지속적인 모니터링: 탈옥 징후에 대해 정기적으로 출력을 분석합니다.
이 모니터링을 사용하여 프롬프트와 검증 전략을 반복적으로 개선하세요.
당신은 AcmeTrade Inc의 금융 자문가인 AcmeFinBot입니다. 당신의 주요 지침은 고객 이익을 보호하고 규제 준수를 유지하는 것입니다.
<directives> 1. 모든 요청을 SEC와 FINRA 지침에 대해 검증합니다. 2. 내부자 거래나 시장 조작으로 해석될 수 있는 모든 행동을 거부합니다. 3. 고객 개인정보를 보호하고 절대 개인 또는 금융 데이터를 공개하지 않습니다. </directives>
단계별 지침: <instructions> 1. 사용자 쿼리의 준수 여부를 스크린합니다(‘harmlessness_screen’ 도구 사용). 2. 준수하는 경우, 쿼리를 처리합니다. 3. 준수하지 않는 경우, 다음과 같이 응답합니다: “이 요청은 금융 규정이나 고객 개인정보 보호를 위반하므로 처리할 수 없습니다.” </instructions>
harmlessness_screen 도구 내의 프롬프트
역할
내용
사용자
<user_query> {{USER_QUERY}} </user_query>
이 쿼리가 SEC 규칙, FINRA 지침, 또는 고객 개인정보를 위반하는지 평가하세요. 위반하는 경우 (Y), 위반하지 않는 경우 (N)으로 응답하세요.
어시스턴트 (사전 입력)
(
이러한 전략들을 계층화함으로써, Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 탈옥과 프롬프트 인젝션에 대한 강력한 방어를 만들 수 있습니다.