使用評估工具

存取評估功能

要開始使用評估工具：

打開 Anthropic 控制台並導航至提示詞編輯器。
撰寫完提示詞後，查看螢幕頂部的「評估」標籤。

確保您的提示詞至少包含 1-2 個使用雙大括號語法的動態變數：{{variable}}。這是創建評估測試集的必要條件。

生成提示詞

控制台提供了由 Claude Opus 4 驅動的內建提示詞生成器：

點擊「生成提示詞」

點擊「生成提示詞」輔助工具將打開一個模態視窗，讓您輸入任務信息。

描述您的任務

描述您想要的任務（例如，「分類收到的客戶支援請求」），您可以根據需要提供多少細節都可以。您提供的上下文越多，Claude 就能越好地為您的特定需求量身定制生成的提示詞。

生成您的提示詞

點擊底部的橙色「生成提示詞」按鈕，Claude 將為您生成高質量的提示詞。然後，您可以使用控制台中的評估畫面進一步改進這些提示詞。

此功能使創建具有適當變數語法的提示詞變得更容易，以便進行評估。

創建測試案例

當您訪問評估畫面時，您有幾種創建測試案例的選項：

點擊左下角的「+ 添加行」按鈕手動添加案例。
使用「生成測試案例」功能讓 Claude 自動為您生成測試案例。
從 CSV 文件導入測試案例。

要使用「生成測試案例」功能：

點擊「生成測試案例」

每次點擊按鈕，Claude 都會為您生成一行測試案例。

編輯生成邏輯（可選）

您還可以通過點擊「生成測試案例」按鈕右側的箭頭下拉菜單，然後點擊彈出的變數視窗頂部的「顯示生成邏輯」來編輯測試案例生成邏輯。您可能需要點擊此視窗右上角的「生成」來填充初始生成邏輯。

編輯此項可讓您自定義並微調 Claude 生成的測試案例，使其更加精確和具體。

以下是一個填充了多個測試案例的評估畫面示例：

如果您更新了原始提示詞文本，您可以針對新提示詞重新運行整個評估套件，以查看更改如何影響所有測試案例的性能。

有效評估的技巧

用於評估的提示詞結構

為了充分利用評估工具，請使用清晰的輸入和輸出格式來構建您的提示詞。例如：

在這個任務中，您將生成一個可愛的單句故事，其中包含兩個元素：一種顏色和一種聲音。
故事中要包含的顏色是：
<color>
{{COLOR}}
</color>
故事中要包含的聲音是：
<sound>
{{SOUND}}
</sound>
以下是生成故事的步驟：
1. 想一個通常與所提供顏色相關的物體、動物或場景。例如，如果顏色是「藍色」，您可能會想到天空、海洋或藍鳥。
2. 想像一個涉及您確定的有顏色的物體/動物/場景和所提供聲音的簡單動作、事件或場景。例如，如果顏色是「藍色」，聲音是「口哨聲」，您可能會想像一隻藍鳥吹著口哨的場景。
3. 用一個簡潔的句子描述您想像的動作、事件或場景。專注於使句子可愛、富有感染力和富有想像力。例如：「一隻歡快的藍鳥在湛藍的天空中飛翔時，吹著歡快的旋律。」
請將您的故事限制在一個句子內。力求使該句子在自然地融入給定的顏色和聲音的同時，盡可能地迷人和引人入勝。
請在 <story> 標籤內寫下您完成的單句故事。

這種結構使得變化輸入（{{COLOR}} 和 {{SOUND}}）並一致地評估輸出變得容易。

使用控制台中的「生成提示詞」輔助工具，快速創建具有適當變數語法的提示詞以進行評估。

理解和比較結果

評估工具提供了幾個功能來幫助您改進提示詞：

並排比較：比較兩個或更多提示詞的輸出，快速查看更改的影響。
質量評分：使用 5 分制對回應質量進行評分，以追蹤每個提示詞的回應質量改進情況。
提示詞版本控制：創建提示詞的新版本並重新運行測試套件，以快速迭代和改進結果。

通過查看各個測試案例的結果並比較不同的提示詞版本，您可以發現模式並更有效地對提示詞進行明智的調整。

立即開始評估您的提示詞，以使用 Claude 構建更強大的 AI 應用程序！

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協定 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

使用評估工具

存取評估功能

生成提示詞

創建測試案例

有效評估的技巧

理解和比較結果

入門步驟

模型與定價

了解 Claude

功能

工具

模型上下文協定 (MCP)

使用案例

提示工程

測試與評估

加強防護機制

法律中心

​存取評估功能

​生成提示詞

​創建測試案例

​有效評估的技巧

​理解和比較結果

存取評估功能

生成提示詞

創建測試案例

有效評估的技巧

理解和比較結果