在定义成功标准后,下一步是设计评估来衡量LLM相对于这些标准的性能。这是提示工程循环的重要组成部分。

本指南重点介绍如何开发测试用例。

构建评估和测试用例

评估设计原则

  1. 针对特定任务:设计反映真实世界任务分布的评估。不要忘记考虑边缘情况!
  2. 尽可能自动化:构建问题以允许自动评分(例如,多选题、字符串匹配、代码评分、LLM评分)。
  3. 优先考虑数量而非质量:更多问题配合稍低信号的自动评分比更少问题配合高质量人工评分更好。

评估示例

手工编写数百个测试用例可能很困难!让Claude帮助您从基线示例测试用例集生成更多测试用例。
如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与Claude进行头脑风暴!

评分评估

在决定使用哪种方法来评分评估时,选择最快、最可靠、最可扩展的方法:

  1. 基于代码的评分:最快且最可靠,极其可扩展,但对于需要较少基于规则刚性的更复杂判断缺乏细致入微。

    • 精确匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工评分:最灵活和高质量,但缓慢且昂贵。如果可能请避免。

  3. 基于LLM的评分:快速且灵活,可扩展且适合复杂判断。首先测试以确保可靠性,然后扩展。

基于LLM评分的技巧

  • 有详细、清晰的评分标准:“答案应该总是在第一句中提到’Acme Inc.’。如果没有,答案自动被评为’不正确’。”
    给定的用例,甚至该用例的特定成功标准,可能需要几个评分标准来进行全面评估。
  • 实证或具体:例如,指示LLM仅输出’正确’或’不正确’,或从1-5的量表进行判断。纯定性评估很难快速大规模评估。
  • 鼓励推理:要求LLM在决定评估分数之前先思考,然后丢弃推理。这提高了评估性能,特别是对于需要复杂判断的任务。

下一步