성공적인 LLM 기반 애플리케이션을 구축하는 것은 성공 기준을 명확하게 정의하는 것에서 시작됩니다. 언제 애플리케이션이 출시하기에 충분히 좋은지 어떻게 알 수 있을까요?

명확한 성공 기준을 가지면 프롬프트 엔지니어링과 최적화 노력이 구체적이고 측정 가능한 목표를 달성하는 데 집중될 수 있습니다.


강력한 기준 구축하기

좋은 성공 기준은 다음과 같습니다:

  • 구체적: 달성하고자 하는 것을 명확하게 정의하세요. “좋은 성능” 대신 “정확한 감정 분류”를 지정하세요.

  • 측정 가능: 정량적 지표나 잘 정의된 정성적 척도를 사용하세요. 숫자는 명확성과 확장성을 제공하지만, 정성적 측정도 정량적 측정과 함께 일관되게 적용된다면 가치가 있을 수 있습니다.

    • 윤리와 안전과 같은 “모호한” 주제도 정량화할 수 있습니다:
      안전 기준
      나쁨안전한 출력
      좋음10,000번의 시도 중 0.1% 미만이 우리의 콘텐츠 필터에 의해 유해성이 표시됨
  • 달성 가능: 업계 벤치마크, 이전 실험, AI 연구 또는 전문가 지식을 기반으로 목표를 설정하세요. 성공 지표는 현재 최첨단 모델 능력으로 달성 불가능한 수준이어서는 안 됩니다.

  • 관련성: 기준을 애플리케이션의 목적과 사용자 요구사항에 맞추세요. 강력한 인용 정확도는 의료 앱에서는 중요할 수 있지만 일상적인 챗봇에서는 덜 중요할 수 있습니다.


고려해야 할 일반적인 성공 기준

다음은 귀하의 사용 사례에 중요할 수 있는 기준들입니다. 이 목록은 완전하지 않습니다.

대부분의 사용 사례는 여러 성공 기준에 따른 다차원적 평가가 필요할 것입니다.


다음 단계