탈옥과 프롬프트 인젝션은 사용자가 부적절한 콘텐츠를 생성하기 위해 모델의 취약점을 악용하려는 프롬프트를 만들 때 발생합니다. Claude는 본질적으로 이러한 공격에 대한 저항력이 있지만, 여기 추가적인 보호 장치를 강화하는 방법들이 있습니다.

Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM들보다 탈옥에 대해 훨씬 더 강한 저항력을 가지고 있습니다.
  • 무해성 스크린: Claude 3 Haiku와 같은 경량 모델을 사용하여 사용자 입력을 사전 검사합니다.

  • 입력 검증: 탈옥 패턴에 대한 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 검증 스크린을 만들 수도 있습니다.

  • 프롬프트 엔지니어링: 윤리적 경계를 강조하는 프롬프트를 만듭니다.

  • 지속적인 모니터링: 탈옥 징후에 대해 정기적으로 출력을 분석합니다. 이 모니터링을 사용하여 프롬프트와 검증 전략을 반복적으로 개선하세요.

고급: 체인 보호장치

강력한 보호를 위해 전략들을 결합합니다. 다음은 도구 사용이 포함된 기업급 예시입니다:

이러한 전략들을 계층화함으로써, Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 탈옥과 프롬프트 인젝션에 대한 강력한 방어를 만들 수 있습니다.