成功基準を定義した後、次のステップはそれらの基準に対してLLMのパフォーマンスを測定する評価を設計することです。これはプロンプトエンジニアリングサイクルの重要な部分です。
エッジケースの例
タスクの忠実性(感情分析) - 完全一致評価
一貫性(FAQボット) - コサイン類似度評価
関連性と一貫性(要約) - ROUGE-L評価
トーンとスタイル(カスタマーサービス) - LLMベースのリッカート尺度
プライバシー保護(医療チャットボット) - LLMベースの二項分類
文脈利用(会話アシスタント) - LLMベースの順序尺度
output == golden_answer
key_phrase in output
例: LLMベースの採点