在定義成功標準後,下一步是設計評估來衡量 LLM 相對於這些標準的性能。這是提示工程循環的重要組成部分。

本指南專注於如何開發您的測試案例。

建立評估和測試案例

評估設計原則

  1. 針對特定任務:設計能反映您真實世界任務分佈的評估。別忘了考慮邊緣案例!
  2. 盡可能自動化:結構化問題以允許自動評分(例如,選擇題、字串匹配、程式碼評分、LLM 評分)。
  3. 優先考慮數量而非品質:更多問題配上稍低信號的自動評分,比較少問題配上高品質人工評分的評估要好。

評估範例

手動編寫數百個測試案例可能很困難!讓 Claude 幫助您從基準範例測試案例集生成更多案例。
如果您不知道哪些評估方法可能對評估您的成功標準有用,您也可以與 Claude 進行腦力激盪!

評分評估

在決定使用哪種方法來評分評估時,選擇最快、最可靠、最可擴展的方法:

  1. 基於程式碼的評分:最快且最可靠,極其可擴展,但對於需要較少基於規則剛性的更複雜判斷缺乏細緻度。

    • 精確匹配:output == golden_answer
    • 字串匹配:key_phrase in output
  2. 人工評分:最靈活且高品質,但緩慢且昂貴。如果可能請避免。

  3. 基於 LLM 的評分:快速且靈活,可擴展且適合複雜判斷。首先測試以確保可靠性,然後擴展。

基於 LLM 評分的技巧

  • 有詳細、清晰的評分標準:「答案應該總是在第一句中提到 ‘Acme Inc.’。如果沒有,答案會自動被評為’不正確’。」
    給定的使用案例,甚至該使用案例的特定成功標準,可能需要多個評分標準來進行全面評估。
  • 實證或具體:例如,指示 LLM 只輸出「正確」或「不正確」,或從 1-5 的量表進行判斷。純定性評估很難快速且大規模評估。
  • 鼓勵推理:要求 LLM 在決定評估分數之前先思考,然後丟棄推理。這提高了評估性能,特別是對於需要複雜判斷的任務。

下一步