평가 기능 액세스하기

평가 도구를 시작하려면:

  1. Anthropic Console을 열고 프롬프트 편집기로 이동합니다.
  2. 프롬프트를 작성한 후, 화면 상단의 ‘Evaluate’ 탭을 찾습니다.

평가 기능 액세스하기

프롬프트에 이중 중괄호 구문을 사용하여 최소 1-2개의 동적 변수를 포함해야 합니다: {{variable}}. 이는 평가 테스트 세트를 만드는 데 필요합니다.

프롬프트 생성하기

Console은 Claude 3.5 Sonnet으로 구동되는 내장 프롬프트 생성기를 제공합니다:

1

'Generate Prompt' 클릭

‘Generate Prompt’ 도우미 도구를 클릭하면 작업 정보를 입력할 수 있는 모달이 열립니다.

2

작업 설명

원하는 작업(예: “인바운드 고객 지원 요청 분류”)을 원하는 만큼 자세히 설명합니다. 더 많은 맥락을 포함할수록 Claude가 생성한 프롬프트를 특정 요구 사항에 맞게 조정할 수 있습니다.

3

프롬프트 생성

하단의 주황색 ‘Generate Prompt’ 버튼을 클릭하면 Claude가 고품질 프롬프트를 생성합니다. 그런 다음 Console의 평가 화면을 사용하여 해당 프롬프트를 더욱 개선할 수 있습니다.

이 기능을 사용하면 평가에 적합한 변수 구문으로 프롬프트를 더 쉽게 만들 수 있습니다.

프롬프트 생성기

테스트 케이스 만들기

평가 화면에 액세스하면 테스트 케이스를 만드는 몇 가지 옵션이 있습니다:

  1. 왼쪽 하단의 ’+ Add Row’ 버튼을 클릭하여 수동으로 케이스를 추가합니다.
  2. ‘Generate Test Case’ 기능을 사용하여 Claude가 자동으로 테스트 케이스를 생성하도록 합니다.
  3. CSV 파일에서 테스트 케이스를 가져옵니다.

‘Generate Test Case’ 기능을 사용하려면:

1

'Generate Test Case' 클릭

Claude가 버튼을 클릭할 때마다 한 번에 하나씩 테스트 케이스를 생성합니다.

2

생성 로직 편집(선택 사항)

‘Generate Test Case’ 버튼 오른쪽의 화살표 드롭다운을 클릭한 다음, 팝업되는 변수 창 상단의 ‘Show generation logic’을 클릭하여 테스트 케이스 생성 로직을 편집할 수 있습니다. 이 창의 오른쪽 상단에 있는 ‘Generate’를 클릭하여 초기 생성 로직을 채워야 할 수 있습니다.

이를 편집하면 Claude가 생성하는 테스트 케이스를 더 정확하고 구체적으로 사용자 정의하고 미세 조정할 수 있습니다.

여기 여러 테스트 케이스가 포함된 평가 화면의 예시가 있습니다:

채워진 평가 화면

원래 프롬프트 텍스트를 업데이트하는 경우 새 프롬프트에 대해 전체 평가 세트를 다시 실행하여 변경 사항이 모든 테스트 케이스의 성능에 어떤 영향을 미치는지 확인할 수 있습니다.

효과적인 평가를 위한 팁

Console의 ‘프롬프트 생성’ 도우미 도구를 사용하여 평가에 적합한 변수 구문으로 프롬프트를 빠르게 만드세요.

결과 이해 및 비교

평가 도구는 프롬프트를 개선하는 데 도움이 되는 몇 가지 기능을 제공합니다:

  1. 나란히 비교: 두 개 이상의 프롬프트 출력을 비교하여 변경 사항의 영향을 빠르게 확인할 수 있습니다.
  2. 품질 등급: 5점 척도로 응답 품질을 평가하여 프롬프트별 응답 품질 개선 사항을 추적합니다.
  3. 프롬프트 버전 관리: 프롬프트의 새 버전을 만들고 테스트 세트를 다시 실행하여 결과를 빠르게 반복하고 개선할 수 있습니다.

테스트 케이스에 걸친 결과를 검토하고 다양한 프롬프트 버전을 비교함으로써 패턴을 발견하고 프롬프트에 대한 정보에 입각한 조정을 보다 효율적으로 수행할 수 있습니다.

오늘 프롬프트 평가를 시작하여 Claude와 함께 더 강력한 AI 애플리케이션을 구축하세요!