构建成功的基于LLM的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布?

有明确的成功标准可以确保你的提示工程和优化工作都集中在实现具体的、可衡量的目标上。


建立强有力的标准

好的成功标准是:

  • 具体的:清楚地定义你想要达到的目标。不要说”良好的表现”,而要具体说明”准确的情感分类”。

  • 可衡量的:使用定量指标或明确定义的定性量表。数字提供清晰度和可扩展性,但如果与定量措施一起持续应用,定性措施也可能有价值。

    • 即使是”模糊”的主题如伦理和安全也可以量化:
      安全标准
      安全输出
      在10,000次试验中,被我们的内容过滤器标记为有害的输出少于0.1%。
  • 可实现的:根据行业基准、先前实验、AI研究或专家知识设定你的目标。你的成功指标不应超出当前前沿模型的能力范围。

  • 相关的:将你的标准与应用程序的目的和用户需求保持一致。对医疗应用来说,强大的引用准确性可能至关重要,但对休闲聊天机器人来说则不那么重要。


需要考虑的常见成功标准

以下是可能对你的用例重要的一些标准。这个列表并非详尽无遗。

大多数用例都需要沿着几个成功标准进行多维评估。


下一步

Was this page helpful?