訪問評估功能

要開始使用評估工具:

  1. 打開 Anthropic 控制台並導航到提示編輯器。
  2. 在撰寫完提示後,查看屏幕頂部的「評估」標籤。

訪問評估功能

確保您的提示至少包含 1-2 個使用雙大括號語法的動態變量:{{variable}}。這是創建評估測試集所必需的。

生成提示

控制台提供了一個由 Claude 3.5 Sonnet 驅動的內置提示生成器

1

點擊「生成提示」

點擊「生成提示」輔助工具將打開一個模態窗口,允許您輸入任務信息。

2

描述您的任務

描述您想要的任務(例如,「分類入站客戶支持請求」),您可以根據需要提供多少或少量細節。您提供的上下文越多,Claude 就能越好地根據您的具體需求定制生成的提示。

3

生成您的提示

點擊底部的橙色「生成提示」按鈕,Claude 將為您生成一個高質量的提示。然後,您可以使用控制台中的評估屏幕進一步改進這些提示。

此功能使創建具有適當變量語法以進行評估的提示變得更加容易。

提示生成器

創建測試案例

當您訪問評估屏幕時,您有幾個選項來創建測試案例:

  1. 點擊左下角的「+ 添加行」按鈕手動添加案例。
  2. 使用「生成測試案例」功能讓 Claude 自動為您生成測試案例。
  3. 從 CSV 文件導入測試案例。

要使用「生成測試案例」功能:

1

點擊「生成測試案例」

每次點擊按鈕,Claude 都會為您生成一行測試案例。

2

編輯生成邏輯(可選)

您還可以通過點擊「生成測試案例」按鈕右側的箭頭下拉菜單,然後點擊彈出的變量窗口頂部的「顯示生成邏輯」來編輯測試案例生成邏輯。您可能需要點擊此窗口右上角的「生成」來填充初始生成邏輯。

編輯此邏輯可以讓您自定義和微調 Claude 生成的測試案例,以達到更高的精確度和特異性。

以下是一個填充了幾個測試案例的評估屏幕示例:

填充的評估屏幕

如果您更新了原始提示文本,您可以針對新提示重新運行整個評估套件,以查看更改如何影響所有測試案例的性能。

有效評估的技巧

使用控制台中的「生成提示」輔助工具快速創建具有適當變量語法的提示以進行評估。

理解和比較結果

評估工具提供了幾個功能來幫助您改進提示:

  1. 並排比較:比較兩個或多個提示的輸出,以快速查看更改的影響。
  2. 質量評分:使用 5 分制對回應質量進行評分,以跟踪每個提示的回應質量改進情況。
  3. 提示版本控制:創建提示的新版本並重新運行測試套件,以快速迭代和改進結果。

通過查看跨測試案例的結果並比較不同的提示版本,您可以更有效地發現模式並對提示進行明智的調整。

今天就開始評估您的提示,以使用 Claude 構建更強大的 AI 應用程序!