访问评估功能

要开始使用评估工具:

  1. 打开Anthropic控制台并导航到提示编辑器。
  2. 编写完提示后,在屏幕顶部寻找”评估”选项卡。

访问评估功能

确保您的提示包含至少1-2个使用双大括号语法的动态变量:{{variable}}。这是创建评估测试集所必需的。

生成提示

控制台提供了一个由Claude 3.5 Sonnet驱动的内置提示生成器

1

点击'生成提示'

点击”生成提示”辅助工具将打开一个模态窗口,允许您输入任务信息。

2

描述您的任务

描述您想要的任务(例如,“分类入站客户支持请求”),可以根据需要提供尽可能多或少的细节。您提供的上下文越多,Claude就能越好地根据您的具体需求定制生成的提示。

3

生成您的提示

点击底部的橙色”生成提示”按钮,Claude将为您生成一个高质量的提示。然后,您可以使用控制台中的评估屏幕进一步改进这些提示。

此功能使创建具有适当变量语法的提示变得更加容易,以便进行评估。

提示生成器

创建测试用例

当您访问评估屏幕时,您有几个选项来创建测试用例:

  1. 点击左下角的”+ 添加行”按钮手动添加一个用例。
  2. 使用”生成测试用例”功能让Claude自动为您生成测试用例。
  3. 从CSV文件导入测试用例。

要使用”生成测试用例”功能:

1

点击'生成测试用例'

Claude将为您生成测试用例,每次点击按钮生成一行。

2

编辑生成逻辑(可选)

您还可以通过点击”生成测试用例”按钮右侧的箭头下拉菜单,然后点击弹出的变量窗口顶部的”显示生成逻辑”来编辑测试用例生成逻辑。您可能需要点击此窗口右上角的”生成”来填充初始生成逻辑。

编辑此内容可以让您自定义和微调Claude生成的测试用例,以获得更高的精确度和特异性。

以下是一个填充了几个测试用例的评估屏幕示例:

填充的评估屏幕

如果您更新了原始提示文本,可以针对新提示重新运行整个评估套件,以查看更改如何影响所有测试用例的性能。

有效评估的技巧

使用控制台中的”生成提示”辅助工具,快速创建具有适当变量语法的提示以进行评估。

理解和比较结果

评估工具提供了几个功能来帮助您改进提示:

  1. 并排比较:比较两个或多个提示的输出,快速查看更改的影响。
  2. 质量评分:使用5分制对响应质量进行评分,以跟踪每个提示的响应质量改进情况。
  3. 提示版本控制:创建提示的新版本并重新运行测试套件,以快速迭代和改进结果。

通过查看各个测试用例的结果并比较不同的提示版本,您可以更有效地发现模式并对提示进行明智的调整。

今天就开始评估您的提示,以使用Claude构建更强大的AI应用程序!