성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하기 위한 평가를 설계하는 것입니다. 이는 프롬프트 엔지니어링 사이클의 중요한 부분입니다.

이 가이드는 테스트 케이스를 개발하는 방법에 중점을 둡니다.

평가 및 테스트 케이스 구축하기

평가 설계 원칙

  1. 작업별 특화: 실제 작업 분포를 반영하는 평가를 설계하세요. 엣지 케이스도 잊지 마세요!
  2. 가능한 자동화: 자동 채점이 가능하도록 질문을 구성하세요(예: 객관식, 문자열 매칭, 코드 채점, LLM 채점).
  3. 품질보다 양을 우선시: 인간이 직접 채점하는 고품질 평가가 적은 것보다 자동 채점으로 신호가 약간 낮더라도 더 많은 질문이 낫습니다.