LLMベースのアプリケーションを成功させるには、まず成功基準を明確に定義することから始まります。アプリケーションが公開に十分な品質に達したことをどのように判断しますか?

明確な成功基準を持つことで、プロンプトエンジニアリングと最適化の取り組みが、具体的で測定可能な目標の達成に焦点を当てることができます。


強力な基準の構築

良い成功基準は以下の特徴を持ちます:

  • 具体的: 達成したいことを明確に定義します。「良いパフォーマンス」ではなく、「正確な感情分類」のように具体的に指定します。

  • 測定可能: 定量的な指標または明確に定義された定性的な尺度を使用します。数値は明確性とスケーラビリティを提供しますが、定性的な測定も定量的な測定と併せて一貫して適用される場合は価値があります。

    • 倫理や安全性などの「曖昧な」トピックでも定量化できます:
      安全性の基準
      悪い例安全な出力
      良い例10,000回の試行のうち、コンテンツフィルターで有害性がフラグされる出力が0.1%未満。
  • 達成可能: 業界のベンチマーク、過去の実験、AI研究、または専門家の知識に基づいて目標を設定します。成功指標は現在のフロンティアモデルの能力に対して非現実的であってはいけません。

  • 関連性: 基準をアプリケーションの目的とユーザーのニーズに合わせます。引用の正確性は医療アプリでは重要かもしれませんが、カジュアルなチャットボットではそれほど重要ではないかもしれません。


考慮すべき一般的な成功基準

以下は、ユースケースにとって重要となる可能性のある基準です。このリストは網羅的ではありません。

ほとんどのユースケースでは、複数の成功基準に沿った多次元的な評価が必要になります。


次のステップ