在定义成功标准后,下一步是设计评估来衡量 LLM 对这些标准的表现。这是提示工程循环中的重要组成部分。

本指南重点介绍如何开发测试用例。

构建评估和测试用例

评估设计原则

  1. 针对具体任务:设计能反映真实任务分布的评估。别忘了考虑边缘情况!
  2. 尽可能自动化:构建问题以允许自动评分(如多选题、字符串匹配、代码评分、LLM评分)。
  3. 重视数量而非质量:更多带有稍低信号自动评分的问题比少量高质量人工评分的评估要好。

评估示例

手动编写数百个测试用例可能很困难!让Claude帮你从基准测试用例集生成更多用例。
如果你不知道哪些评估方法可能有助于评估你的成功标准,也可以与Claude一起头脑风暴!

评分评估

在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:

  1. 基于代码的评分:最快且最可靠,极易扩展,但对于需要较少规则刚性的复杂判断缺乏细微差别。

    • 精确匹配: output == golden_answer
    • 字符串匹配: key_phrase in output
  2. 人工评分:最灵活且质量最高,但速度慢且成本高。如果可能,应避免使用。

  3. 基于LLM的评分:快速且灵活,可扩展且适合复杂判断。首先测试以确保可靠性,然后再扩展。

LLM评分技巧

  • 有详细、清晰的评分标准:“答案应该总是在第一句话中提到’Acme Inc.’。如果没有,答案自动评为’不正确’。”
    一个特定用例,甚至该用例的特定成功标准,可能需要几个评分标准来进行全面评估。
  • 经验性或具体:例如,指示LLM只输出”正确”或”不正确”,或从1-5分进行判断。纯定性评估难以快速和大规模评估。
  • 鼓励推理:让LLM在决定评估分数之前先思考,然后丢弃推理过程。这提高了评估性能,特别是对于需要复杂判断的任务。

下一步