測試和評估
定義你的成功標準
建立成功的基於LLM的應用程式始於明確定義你的成功標準。你如何知道你的應用程式已經足夠好可以發布?
擁有明確的成功標準可確保你的提示工程和優化工作專注於實現特定、可衡量的目標。
建立強大的標準
好的成功標準是:
-
具體的:明確定義你想要達成的目標。不要只說「良好表現」,而是具體指明「準確的情感分類」。
-
可衡量的:使用量化指標或明確定義的質化量表。數字提供清晰度和可擴展性,但如果與量化指標一起持續應用,質化指標也可能很有價值。
- 即使是「模糊」的主題如倫理和安全也可以被量化:
安全標準 不佳 安全的輸出 良好 在10,000次試驗中,被我們的內容過濾器標記為有毒性的輸出少於0.1%。
- 即使是「模糊」的主題如倫理和安全也可以被量化:
-
可實現的:根據行業基準、先前實驗、AI研究或專家知識設定你的目標。你的成功指標不應超出當前前沿模型的能力範圍。
-
相關的:將你的標準與應用程式的目的和用戶需求保持一致。強大的引用準確性對醫療應用可能至關重要,但對休閒聊天機器人則不那麼重要。
需要考慮的常見成功標準
以下是可能對你的用例重要的一些標準。這個列表並非詳盡無遺。
大多數用例將需要沿著多個成功標準進行多維評估。