LLMベースのアプリケーションを成功させるには、成功基準を明確に定義することから始めます。アプリケーションを公開するのに十分な品質になったことをどのように判断しますか?

明確な成功基準を設定することで、プロンプトエンジニアリングと最適化の取り組みが、具体的で測定可能な目標の達成に集中できるようになります。


強力な基準の構築

優れた成功基準は以下のような特徴があります:

  • 具体的:達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」のように具体的に指定します。

  • 測定可能:定量的な指標や明確に定義された定性的な尺度を使用します。数値は明確さとスケーラビリティを提供しますが、定量的な指標と併せて一貫して適用される場合、定性的な指標も価値があります。

    • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
      安全性基準
      悪い安全な出力
      良い10,000回の試行で、コンテンツフィルターによって有害とフラグ付けされた出力が0.1%未満。
  • 達成可能:業界のベンチマーク、過去の実験、AI研究、専門家の知識に基づいて目標を設定します。成功指標は、現在のフロンティアモデルの能力に対して非現実的であってはいけません。

  • 関連性:アプリケーションの目的とユーザーのニーズに基準を合わせます。医療アプリでは引用の正確性が重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。


検討すべき一般的な成功基準

以下は、ユースケースにとって重要な可能性のある基準です。このリストは網羅的ではありません。

ほとんどのユースケースでは、いくつかの成功基準に沿った多次元の評価が必要になります。


次のステップ