使用评估工具
Anthropic 控制台提供了一个评估工具,允许您在各种场景下测试您的提示。
访问评估功能
要开始使用评估工具:
- 打开 Anthropic 控制台并导航到提示编辑器。
- 编写完提示后,在屏幕顶部寻找”Evaluate”(评估)选项卡。
确保您的提示中至少包含1-2个使用双大括号语法的动态变量:{{variable}}。这是创建评估测试集所必需的。
生成提示
控制台提供了由 Claude Opus 4 驱动的内置提示生成器:
点击'Generate Prompt'(生成提示)
点击”Generate Prompt”辅助工具将打开一个模态窗口,允许您输入任务信息。
描述您的任务
描述您想要的任务(例如,“分类入站客户支持请求”),您可以根据需要提供或多或少的细节。您提供的上下文越多,Claude 就能越好地将生成的提示定制为满足您的特定需求。
生成您的提示
点击底部的橙色”Generate Prompt”按钮,Claude 将为您生成高质量的提示。然后,您可以使用控制台中的评估屏幕进一步改进这些提示。
此功能使创建带有适当变量语法的提示变得更加容易,便于评估。
创建测试用例
当您访问评估屏幕时,您有几种创建测试用例的选项:
- 点击左下角的”+ Add Row”(添加行)按钮手动添加用例。
- 使用”Generate Test Case”(生成测试用例)功能让 Claude 自动为您生成测试用例。
- 从 CSV 文件导入测试用例。
要使用”Generate Test Case”功能:
点击'Generate Test Case'
每次点击按钮,Claude 都会为您生成一行测试用例。
编辑生成逻辑(可选)
您还可以通过点击”Generate Test Case”按钮右侧的箭头下拉菜单,然后点击弹出的变量窗口顶部的”Show generation logic”(显示生成逻辑)来编辑测试用例生成逻辑。您可能需要点击此窗口右上角的Generate
来填充初始生成逻辑。
编辑此内容可以让您自定义和微调 Claude 生成的测试用例,使其更加精确和具体。
以下是一个填充了多个测试用例的评估屏幕示例:
如果您更新了原始提示文本,可以针对新提示重新运行整个评估套件,以查看更改如何影响所有测试用例的性能。
有效评估的技巧
使用控制台中的”Generate a prompt”(生成提示)辅助工具,快速创建带有适当变量语法的提示以进行评估。
理解和比较结果
评估工具提供了几个功能来帮助您改进提示:
- 并排比较:比较两个或多个提示的输出,快速查看更改的影响。
- 质量评分:使用5分制对响应质量进行评分,以跟踪每个提示的响应质量改进情况。
- 提示版本控制:创建提示的新版本并重新运行测试套件,以快速迭代和改进结果。
通过查看各测试用例的结果并比较不同的提示版本,您可以发现模式并更有效地对提示进行明智的调整。
立即开始评估您的提示,以使用 Claude 构建更强大的 AI 应用程序!