在定义成功标准后,下一步是设计评估来衡量 LLM 对这些标准的表现。这是提示工程循环中的重要部分。

本指南重点介绍如何开发测试用例。

构建评估和测试用例

评估设计原则

  1. 针对具体任务:设计反映真实世界任务分布的评估。别忘了考虑边缘情况!
  2. 尽可能自动化:构建问题以允许自动评分(例如,多选题、字符串匹配、代码评分、LLM 评分)。
  3. 优先考虑数量而非质量:更多带有稍低信号自动评分的问题比少量高质量人工评分的评估更好。

评估示例

手动编写数百个测试用例可能很困难!让 Claude 帮你从基线测试用例集生成更多。
如果你不知道哪些评估方法可能有助于评估你的成功标准,你也可以与 Claude 进行头脑风暴!

评分评估

在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:

  1. 基于代码的评分:最快且最可靠,极易扩展,但对于需要较少基于规则的严格性的更复杂判断缺乏细微差别。

    • 精确匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工评分:最灵活和高质量,但速度慢且昂贵。如果可能,避免使用。

  3. 基于 LLM 的评分:快速灵活,可扩展且适用于复杂判断。首先测试以确保可靠性,然后再扩展。

基于 LLM 的评分技巧

  • 有详细、清晰的评分标准:“答案应该总是在第一句话中提到’Acme Inc.’。如果没有,答案自动评为’不正确’。”
    给定的用例,甚至该用例的特定成功标准,可能需要几个评分标准进行全面评估。
  • 经验性或具体:例如,指示 LLM 只输出”正确”或”不正确”,或从 1-5 的范围进行判断。纯定性评估难以快速和大规模评估。
  • 鼓励推理:要求 LLM 在决定评估分数之前先思考,然后丢弃推理过程。这可以提高评估性能,特别是对于需要复杂判断的任务。

下一步