在定義成功標準後,下一步是設計評估來衡量 LLM 對這些標準的表現。這是提示工程週期中至關重要的一部分。

本指南著重於如何開發您的測試案例。

建立評估和測試案例

評估設計原則

  1. 針對特定任務:設計能反映您真實世界任務分佈的評估。別忘了考慮邊緣案例!
  2. 盡可能自動化:構建問題以允許自動評分(例如,多選題、字符串匹配、代碼評分、LLM 評分)。
  3. 優先考慮數量而非質量:更多具有稍低信號自動評分的問題比少量高質量人工評分的評估更好。

評估示例

手動編寫數百個測試案例可能很困難!讓 Claude 幫助你從基準測試案例集生成更多案例。
如果你不知道哪些評估方法可能有助於評估你的成功標準,你也可以與 Claude 進行頭腦風暴!

評分評估

在決定使用哪種方法來評分評估時,選擇最快、最可靠、最可擴展的方法:

  1. 基於代碼的評分:最快且最可靠,極易擴展,但對於需要較少基於規則的嚴格性的更複雜判斷缺乏細微差別。

    • 精確匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工評分:最靈活且高質量,但速度慢且昂貴。如果可能,避免使用。

  3. 基於 LLM 的評分:快速且靈活,可擴展且適用於複雜判斷。首先測試以確保可靠性,然後再擴展。

基於 LLM 評分的技巧

  • 有詳細、清晰的評分標準:“答案應該總是在第一句話中提到 ‘Acme Inc.’。如果沒有,答案自動評為 ‘不正確’。”
    給定的用例,甚至該用例的特定成功標準,可能需要幾個評分標準進行全面評估。
  • 經驗性或具體:例如,指示 LLM 只輸出 ‘正確’ 或 ‘不正確’,或從 1-5 的範圍進行判斷。純粹定性的評估難以快速和大規模評估。
  • 鼓勵推理:要求 LLM 在決定評估分數之前先思考,然後丟棄推理過程。這可以提高評估性能,特別是對於需要複雜判斷的任務。

下一步