查看我們的 評估指南 以直接查看代碼示例。

優化 Claude 以在任務上為您提供盡可能高的準確性是一門實證科學,也是一個持續改進的過程。無論您是想確定對提示的更改是否提高了 Claude 的性能、測試不同的 Claude 模型之間的表現,還是評估您的使用案例是否已準備好投入生產,一個精心設計的評估系統對於成功至關重要。

在本指南中,我們將引導您了解提示開發生命週期、不同類型的評估及其優缺點,並提供一些指導原則,以幫助您為您的使用案例選擇最佳評估方法。


如何使用評估

在使用 LLM 時,評估應該是您整個生產生命週期中不可或缺的一部分。它們提供了一個量化的性能指標,使您能夠跟踪進度、識別問題並做出數據驅動的決策。以下是評估如何適應生產生命週期的不同階段:

  1. 提示工程提示工程 過程應該從構建一套嚴格的評估開始,而不是編寫提示。這些評估將作為衡量提示有效性的基礎,幫助您隨著時間的推移迭代和改進它們。
  2. 開發:在使用 Claude 開發應用程序或工作流程時,即使提示本身沒有改變,也要使用在提示工程階段設計的評估來定期測試提示的性能。提示之外和下游的工作流程部分可能會無意中影響模型性能。這將幫助您及早發現任何問題,並確保您的工作流程按預期執行。
  3. 最終測試:在將應用程序或工作流程部署到生產環境之前,至少創建一組您在開發階段未使用過的額外評估。這組保留的評估將幫助您評估提示的真實性能,並確保它們沒有過度擬合到開發期間使用的評估。
  4. 生產:一旦您的應用程序或工作流程投入生產,繼續使用評估來監控性能並識別任何潛在問題。您還可以使用評估來比較不同 Claude 模型或提示版本的性能,以便對更新和改進做出數據驅動的決策。

通過在整個生產生命週期中納入評估,您可以確保您的提示以最佳方式執行,並且您的應用程序或工作流程能夠提供最佳結果。


評估的組成部分

評估通常包含四個部分:

  1. 輸入提示:提供給模型的提示。Claude 根據此提示生成完成(也稱為輸出)。在設計評估時,輸入列通常包含一組可變輸入,在測試時將其輸入到提示模板中。
  2. 輸出:通過被評估的模型運行輸入提示而生成的文本。
  3. 標準答案:模型輸出與之比較的正確答案。標準答案可以是必須完全匹配的答案,或者是一個完美答案的示例,旨在為評分者(人工或 LLM)提供比較點。
  4. 分數:由下面討論的評分方法之一生成的數值,表示模型在問題上的表現如何。

評估評分方法

評估中有兩個方面可能耗時且昂貴:編寫問題和標準答案對,以及評分。雖然編寫問題和標準答案通常是一次性的固定成本,但每次重新運行評估時都會產生評分成本,而您可能會經常這樣做。因此,構建可以快速且低成本評分的評估應該是您設計選擇的核心

常見的評估評分方法有三種:

  1. 基於代碼的評分:這涉及使用標準代碼(主要是字符串匹配和正則表達式)來評分模型的輸出。常見的版本包括檢查與答案的完全匹配,或檢查字符串是否包含某些關鍵短語。如果您可以設計允許使用此方法的評估,這是最好的評分方法,因為它快速且高度可靠。但是,許多評估不允許這種評分方式。
  2. 人工評分:人查看模型生成的答案,將其與標準答案進行比較,並給出分數。這是最有能力的評分方法,因為它幾乎可以用於任何任務,但它也非常緩慢且昂貴,特別是如果您已經構建了一個大型評估。如果可能的話,您應該盡量避免設計需要人工評分的評估。
  3. 基於模型的評分:Claude 非常擅長自我評分,可用於評分各種可能以前需要人工完成的任務,例如創意寫作中的語氣分析或自由形式問答中的準確性。您可以通過編寫 Claude 的評分提示來實現這一點。

評估類型

有幾種類型的評估可用於衡量 Claude 在任務上的性能。每種類型都有其優缺點。

評估類型描述優點缺點
多項選擇題 (MCQ)封閉式問題,有多個答案選項,其中至少有一個是正確的- 易於自動化- 評估主題的一般知識- 明確的答案- 易於知道什麼是準確的- 如果測試是公開的,可能存在訓練洩漏- 在評估更複雜或開放式任務方面有限
完全匹配 (EM)檢查模型的答案是否與正確答案完全相同- 易於自動化- 在評估特定知識或任務方面具有高精度- 易於知道什麼是準確的- 在評估更複雜或開放式任務方面有限- 可能無法捕獲正確答案的變化
字符串匹配檢查模型的答案是否包含答案字符串- 易於自動化- 評估模型輸出中特定信息的存在- 可能無法捕獲模型響應的完整上下文或含義- 可能導致誤報或漏報
開放式答案 (OA)開放式問題,可以有多個可能的解決方案或需要多步驟過程來評估- 非常適合評估高級知識、隱性知識或定性開放式表現- 可由人或模型評分- 更難以自動化- 需要明確的評分標準- 基於模型的評分可能不如人工評分準確

設計評估的最佳實踐

在為您的特定使用案例設計評估時,請牢記以下最佳實踐:

  1. 特定任務的評估:盡可能使您的評估特定於您的任務,並嘗試讓評估中的分佈代表現實生活中問題和問題難度的分佈。
  2. 測試基於模型的評分:唯一知道基於模型的評分器是否可以很好地評分您的任務的方法是嘗試一下並閱讀一些樣本,看看您的任務是否是一個好的候選。
  3. 盡可能自動化:通常,巧妙的設計可以使評估自動化。嘗試以允許自動評分的方式構建問題,同時仍然忠實於任務。將問題重新格式化為多項選擇是一種常見的策略。
  4. 優先考慮數量而非質量:通常,寧可選擇高數量低質量的問題,也不要選擇非常低數量高質量的問題。
  5. 使用評估指南:我們的 評估指南 提供了各種類型的人工和模型評分評估的實現示例,包括您可以複製的指導和代碼。

通過遵循這些最佳實踐並為您的使用案例選擇適當的評估類型,您可以有效地衡量 Claude 的性能,並做出數據驅動的決策來改進您的提示和工作流程。