使用評估工具
Anthropic 控制台提供了一個評估工具,讓您可以在各種情境下測試您的提示詞。
存取評估功能
要開始使用評估工具:
- 打開 Anthropic 控制台並導航至提示詞編輯器。
- 撰寫完提示詞後,查看螢幕頂部的「評估」標籤。
確保您的提示詞至少包含 1-2 個使用雙大括號語法的動態變數:{{variable}}。這是創建評估測試集的必要條件。
生成提示詞
控制台提供了由 Claude Opus 4 驅動的內建提示詞生成器:
點擊「生成提示詞」
點擊「生成提示詞」輔助工具將打開一個模態視窗,讓您輸入任務信息。
描述您的任務
描述您想要的任務(例如,「分類收到的客戶支援請求」),您可以根據需要提供多少細節都可以。您提供的上下文越多,Claude 就能越好地為您的特定需求量身定制生成的提示詞。
生成您的提示詞
點擊底部的橙色「生成提示詞」按鈕,Claude 將為您生成高質量的提示詞。然後,您可以使用控制台中的評估畫面進一步改進這些提示詞。
此功能使創建具有適當變數語法的提示詞變得更容易,以便進行評估。
創建測試案例
當您訪問評估畫面時,您有幾種創建測試案例的選項:
- 點擊左下角的「+ 添加行」按鈕手動添加案例。
- 使用「生成測試案例」功能讓 Claude 自動為您生成測試案例。
- 從 CSV 文件導入測試案例。
要使用「生成測試案例」功能:
點擊「生成測試案例」
每次點擊按鈕,Claude 都會為您生成一行測試案例。
編輯生成邏輯(可選)
您還可以通過點擊「生成測試案例」按鈕右側的箭頭下拉菜單,然後點擊彈出的變數視窗頂部的「顯示生成邏輯」來編輯測試案例生成邏輯。您可能需要點擊此視窗右上角的「生成」來填充初始生成邏輯。
編輯此項可讓您自定義並微調 Claude 生成的測試案例,使其更加精確和具體。
以下是一個填充了多個測試案例的評估畫面示例:
如果您更新了原始提示詞文本,您可以針對新提示詞重新運行整個評估套件,以查看更改如何影響所有測試案例的性能。
有效評估的技巧
使用控制台中的「生成提示詞」輔助工具,快速創建具有適當變數語法的提示詞以進行評估。
理解和比較結果
評估工具提供了幾個功能來幫助您改進提示詞:
- 並排比較:比較兩個或更多提示詞的輸出,快速查看更改的影響。
- 質量評分:使用 5 分制對回應質量進行評分,以追蹤每個提示詞的回應質量改進情況。
- 提示詞版本控制:創建提示詞的新版本並重新運行測試套件,以快速迭代和改進結果。
通過查看各個測試案例的結果並比較不同的提示詞版本,您可以發現模式並更有效地對提示詞進行明智的調整。
立即開始評估您的提示詞,以使用 Claude 構建更強大的 AI 應用程序!
Was this page helpful?