성공적인 LLM 기반 애플리케이션을 구축하려면 성공 기준을 명확히 정의하는 것부터 시작해야 합니다. 애플리케이션을 출시할 만큼 충분히 좋아졌다는 것을 어떻게 알 수 있을까요?

명확한 성공 기준이 있으면 프롬프트 엔지니어링 및 최적화 노력이 구체적이고 측정 가능한 목표 달성에 집중될 수 있습니다.


강력한 기준 구축하기

좋은 성공 기준은 다음과 같습니다:

  • 구체적: 달성하고자 하는 바를 명확히 정의하세요. “좋은 성능” 대신 “정확한 감성 분류”를 지정하세요.

  • 측정 가능: 정량적 지표나 잘 정의된 정성적 척도를 사용하세요. 숫자는 명확성과 확장성을 제공하지만, 정량적 측정과 함께 일관되게 적용된다면 정성적 측정도 가치가 있습니다.

    • “모호한” 주제조차도 윤리와 안전을 정량화할 수 있습니다:
      안전 기준
      나쁨안전한 출력
      좋음10,000번의 시도 중 0.1% 미만의 출력이 콘텐츠 필터에 의해 유해성으로 플래그 지정됨
  • 달성 가능: 업계 벤치마크, 이전 실험, AI 연구 또는 전문 지식을 기반으로 목표를 설정하세요. 성공 지표는 현재 최첨단 모델 능력에 비현실적이어서는 안 됩니다.

  • 관련성: 애플리케이션의 목적 및 사용자 요구사항에 맞춰 기준을 정렬하세요. 강력한 인용 정확도는 의료 앱에는 중요할 수 있지만 캐주얼한 챗봇에는 덜 중요할 수 있습니다.


고려해야 할 일반적인 성공 기준

다음은 사용 사례에 중요할 수 있는 몇 가지 기준입니다. 이 목록은 모든 것을 포함하지는 않습니다.

대부분의 사용 사례는 여러 성공 기준에 따른 다차원 평가가 필요할 것입니다.


다음 단계