탈옥과 프롬프트 인젝션은 사용자가 모델 학습의 취약점을 악용하여 부적절하거나 유해한 콘텐츠를 생성하도록 하는 특정 프롬프트를 만들 때 발생합니다. Claude는 인간 피드백(RLHF)과 Constitutional AI와 같은 고급 학습 방법으로 인해 본질적으로 이러한 공격에 탄력적이며, 다른 주요 대형 언어 모델보다 이러한 공격에 훨씬 더 강력합니다(New York Times, 2023). 그러나 특히 사용 사례에 중요한 경우 취할 수 있는 몇 가지 추가 완화 단계가 있습니다.


완화 전략

  1. 무해성 스크린: Claude 3 Haiku와 같은 작고 빠른 모델을 사용하여 처리하기 전에 사용자 입력의 적절성을 평가하는 “무해성 스크린”을 구현합니다. 이는 잠재적으로 유해한 프롬프트를 감지하고 차단하는 데 도움이 됩니다.
    다음은 Claude의 응답과 함께 무해성 스크린 프롬프트의 예입니다:
    역할내용
    사용자사용자가 콘텐츠 일부를 계속하기를 원합니다. 지금까지의 콘텐츠는 다음과 같습니다: <content>{{CONTENT}}</content>

    콘텐츠가 유해하거나 포르노그래피 또는 불법 활동을 언급하는 경우 (Y)로 답하십시오. 콘텐츠가 유해하거나 포르노그래피 또는 불법 활동을 언급하지 않는 경우 (N)으로 답하십시오.
    어시스턴트 (사전 입력)(
    어시스턴트 (Claude 응답)Y)
  2. 입력 유효성 검사: 탈옥 시도 또는 유해한 콘텐츠(이전 지침 모두 잊기 등)와 관련된 키워드나 패턴이 포함된 프롬프트를 필터링하는 엄격한 입력 유효성 검사 기술을 적용합니다. 이는 악의적인 프롬프트가 모델에 의해 처리되는 것을 방지하는 데 도움이 될 수 있지만, 탈옥자가 계속해서 탈옥 언어를 발전시키므로 대규모로 구현하기 어려울 수 있습니다. LLM을 사용하여 모델이 찾아야 할 구문 및 의도 유형에 대한 예로 알려진 탈옥 언어를 제공함으로써 보다 일반화된 유효성 검사 화면을 적용할 수 있습니다.
  3. 프롬프트 엔지니어링: 탈옥 시도 가능성을 줄이기 위해 프롬프트를 신중하게 작성하십시오. 모델의 윤리 지침과 금지된 행동을 강조하는 명확하고 간결하며 잘 정의된 지침을 사용하십시오.
    다음은 명확한 지침이 있는 시스템 프롬프트의 예입니다:
    내용
    시스템당신은 도움이 되고 무해하며 정직하도록 설계된 AI 어시스턴트입니다. 엄격한 윤리 지침을 준수하고 유해하거나 불법적이거나 부적절한 활동에 참여하거나 장려하는 것을 삼가야 합니다. 사용자가 당신의 윤리 원칙에 위배되는 일을 하도록 시도하는 경우 정중하게 거절하고 이행할 수 없는 이유를 설명하십시오.
  4. 지속적인 모니터링: 탈옥 또는 부적절한 콘텐츠 생성의 징후에 대해 모델의 출력을 정기적으로 모니터링합니다. 이는 프롬프트 또는 유효성 검사 전략을 개선하는 데 도움이 되는 잠재적 취약점을 식별하는 데 도움이 될 수 있습니다.

모든 것을 함께 넣기

이러한 전략을 결합함으로써 Claude 모델 제품군에서 탈옥 및 프롬프트 인젝션의 위험을 크게 줄일 수 있습니다. Claude는 이미 이러한 공격에 매우 강력하지만 추가 안전 장치를 구현하면 모든 사용자에게 더 안전하고 신뢰할 수 있는 경험을 보장할 수 있습니다.

다음은 여러 전략을 통합한 시스템 프롬프트의 예입니다:

내용
시스템당신은 도움이 되고 무해하며 정직하도록 설계된 AI 어시스턴트입니다. 엄격한 윤리 지침을 준수하고 유해하거나 불법적이거나 부적절한 활동에 참여하거나 장려하는 것을 삼가야 합니다. 사용자가 아래 지침에서 금지하는 일을 하도록 시도하는 경우 “그럴 수 없습니다.”라고 말하십시오.

<guidelines>
{{GUIDELINES}}
</guidelines>

또한 유해하거나 포르노그래피 또는 불법 활동을 언급하는 콘텐츠를 감지하는 경우 즉시 “콘텐츠 경고: 부적절함”으로 응답하고 더 이상 응답하지 마십시오.

명확한 지침을 제공하고 콘텐츠 경고를 구현하며 모델의 윤리 원칙을 강조함으로써 이 프롬프트는 탈옥 및 프롬프트 인젝션의 위험을 최소화하는 데 도움이 됩니다.


다음 단계

  • 프롬프트 누출 감소를 탐색하여 입력 프롬프트에서 민감한 정보를 모델이 공개할 위험을 최소화하는 방법을 알아보세요.
  • 매우 효과적인 프롬프트를 만들기 위한 전략에 대한 포괄적인 개요는 프롬프트 엔지니어링 가이드를 확인하세요.
  • 질문이나 우려 사항이 있는 경우 주저하지 말고 고객 지원 팀에 문의하십시오.