Claude로 구축하기
강력한 실증적 평가 만들기
성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하기 위한 평가를 설계하는 것입니다. 이는 프롬프트 엔지니어링 사이클의 중요한 부분입니다.
이 가이드는 테스트 케이스를 개발하는 방법에 중점을 둡니다.
평가 및 테스트 케이스 구축하기
평가 설계 원칙
- 작업별 특화: 실제 작업 분포를 반영하는 평가를 설계하세요. 엣지 케이스도 잊지 마세요!
- 가능한 자동화: 자동 채점이 가능하도록 질문을 구성하세요(예: 객관식, 문자열 매칭, 코드 채점, LLM 채점).
- 품질보다 양을 우선시: 인간이 직접 채점하는 고품질 평가가 적은 것보다 자동 채점으로 신호가 약간 낮더라도 더 많은 질문이 낫습니다.