在定義成功標準後,下一步是設計評估來衡量 LLM 對這些標準的表現。這是提示工程週期中的重要部分。

本指南著重於如何開發您的測試案例。

建立評估和測試案例

評估設計原則

  1. 針對特定任務:設計能反映真實世界任務分布的評估。別忘了考慮邊緣案例!
  2. 盡可能自動化:構建問題以允許自動評分(例如:多選題、字串匹配、程式碼評分、LLM 評分)。
  3. 重視數量勝過品質:更多具有稍低信號自動評分的問題,比較少的高品質人工評分評估要好。

評估範例

手動編寫數百個測試案例可能很困難!讓 Claude 幫你從基準測試案例集生成更多案例。
如果你不知道哪些評估方法可能有助於評估你的成功標準,你也可以與 Claude 一起腦力激盪!

評分評估

在決定使用哪種方法來評分評估時,選擇最快、最可靠、最具可擴展性的方法:

  1. 基於程式碼的評分:最快且最可靠,極具可擴展性,但對於需要較少規則基礎嚴格性的複雜判斷缺乏細微差別。

    • 精確匹配:output == golden_answer
    • 字串匹配:key_phrase in output
  2. 人工評分:最靈活且高品質,但速度慢且昂貴。如果可能,避免使用。

  3. 基於 LLM 的評分:快速且靈活,可擴展且適合複雜判斷。首先測試以確保可靠性,然後再擴展。

基於 LLM 的評分技巧

  • 有詳細、清晰的評分標準:“答案應該總是在第一句話中提到 ‘Acme Inc.’。如果沒有,答案自動評為’不正確’。”
    一個給定的使用案例,甚至是該使用案例的特定成功標準,可能需要幾個評分標準來進行全面評估。
  • 實證或具體:例如,指示 LLM 只輸出’正確’或’不正確’,或從 1-5 分進行判斷。純定性評估難以快速且大規模評估。
  • 鼓勵推理:要求 LLM 在決定評估分數之前先思考,然後丟棄推理過程。這提高了評估性能,特別是對於需要複雜判斷的任務。

下一步