잠금해제와 프롬프트 주입은 사용자가 부적절한 콘텐츠를 생성하기 위해 모델의 취약점을 악용하려는 프롬프트를 만들 때 발생합니다. Claude는 본질적으로 이러한 공격에 대한 복원력이 있지만, 특히 서비스 약관 또는 사용 정책을 위반하는 사용에 대해 가드레일을 강화하기 위한 추가 단계가 있습니다.

Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM보다 잠금해제에 훨씬 더 강한 저항력을 가지고 있습니다.
  • 무해성 스크린: Claude 3 Haiku와 같은 경량 모델을 사용하여 사용자 입력을 사전 스크리닝합니다.

  • 입력 유효성 검사: 잠금해제 패턴에 대한 프롬프트를 필터링합니다. 알려진 잠금해제 언어를 예시로 제공하여 LLM을 사용해 일반화된 유효성 검사 스크린을 만들 수도 있습니다.

  • 프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하는 프롬프트를 만듭니다.

Claude의 가드레일을 우회하려고 시도하는 악의적인 행동을 반복하는 사용자에 대해 응답을 조정하고 제한하거나 차단을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부를 여러 번 유발하는 경우(예: “콘텐츠 필터링 정책에 의해 출력이 차단됨”), 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따른 조치를 취하세요.

  • 지속적인 모니터링: 잠금해제 징후에 대해 출력을 정기적으로 분석합니다. 이 모니터링을 사용하여 프롬프트와 유효성 검사 전략을 반복적으로 개선하세요.

고급: 체인 안전장치

강력한 보호를 위해 전략을 결합합니다. 다음은 도구 사용이 포함된 기업급 예시입니다:

이러한 전략들을 계층화함으로써, Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 잠금해제와 프롬프트 주입에 대한 강력한 방어를 구축할 수 있습니다.