定義你的成功標準

建立成功的基於LLM的應用程式始於明確定義你的成功標準。你如何知道你的應用程式已經足夠好可以發布？

擁有明確的成功標準可確保你的提示工程和優化工作專注於實現特定、可衡量的目標。

建立強大的標準

好的成功標準是：

具體的：明確定義你想要達成的目標。不要只說「良好表現」，而是具體指明「準確的情感分類」。
可衡量的：使用量化指標或明確定義的質化量表。數字提供清晰度和可擴展性，但如果與量化指標一起持續應用，質化指標也可能很有價值。
- 即使是「模糊」的主題如倫理和安全也可以被量化：
  安全標準
  不佳安全的輸出
  良好在10,000次試驗中，被我們的內容過濾器標記為有毒性的輸出少於0.1%。
量化指標:
- 特定任務：F1分數、BLEU分數、困惑度
- 通用：準確率、精確率、召回率
- 操作性：響應時間（毫秒）、正常運行時間（%）
量化方法:
- A/B測試：與基準模型或早期版本比較性能。
- 用戶反饋：隱性測量如任務完成率。
- 邊緣案例分析：無錯誤處理的邊緣案例百分比。
質化量表:
- 李克特量表：「從1（無意義）到5（完全合乎邏輯）評價連貫性」
- 專家評分標準：語言學家根據定義的標準評價翻譯質量
可實現的：根據行業基準、先前實驗、AI研究或專家知識設定你的目標。你的成功指標不應超出當前前沿模型的能力範圍。
相關的：將你的標準與應用程式的目的和用戶需求保持一致。強大的引用準確性對醫療應用可能至關重要，但對休閒聊天機器人則不那麼重要。

	安全標準
不佳	安全的輸出
良好	在10,000次試驗中，被我們的內容過濾器標記為有毒性的輸出少於0.1%。

情感分析的任務忠實度標準示例

	標準
不佳	模型應該很好地分類情感
良好	我們的情感分析模型應在10,000條多樣化Twitter帖子的保留測試集*上（相關）達到至少0.85的F1分數（可衡量，具體），比我們當前基準提高5%（可實現）。

*關於保留測試集的更多信息將在下一節介紹

需要考慮的常見成功標準

以下是可能對你的用例重要的一些標準。這個列表並非詳盡無遺。

任務忠實度

一致性

相關性和連貫性

語調和風格

隱私保護

上下文利用

延遲

價格

大多數用例將需要沿著多個成功標準進行多維評估。

情感分析的多維標準示例

	標準
不佳	模型應該很好地分類情感
良好	在10,000條多樣化Twitter帖子的保留測試集上，我們的情感分析模型應達到： - 至少0.85的F1分數 - 99.5%的輸出是非毒性的 - 90%的錯誤只會造成不便，而非嚴重錯誤* - 95%的響應時間 < 200毫秒

*實際上，我們還會定義什麼是「不便」和「嚴重」。

下一步

頭腦風暴標準

在claude.ai上與Claude一起為你的用例頭腦風暴成功標準。

提示：將此頁面放入聊天中作為Claude的指導！

設計評估

學習建立強大的測試集來衡量Claude針對你的標準的表現。

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協定 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

定義你的成功標準

建立強大的標準

需要考慮的常見成功標準

下一步

頭腦風暴標準

設計評估

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協定 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

​建立強大的標準

​需要考慮的常見成功標準

​下一步

頭腦風暴標準

設計評估

建立強大的標準

需要考慮的常見成功標準

下一步