测试与评估
定义你的成功标准
构建成功的基于LLM的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布?
拥有明确的成功标准可确保你的提示工程和优化工作专注于实现特定的、可衡量的目标。
建立强有力的标准
好的成功标准是:
-
具体的:明确定义你想要实现的目标。不要说”良好的性能”,而应该具体说明”准确的情感分类”。
-
可衡量的:使用定量指标或定义明确的定性量表。数字提供清晰度和可扩展性,但如果与定量措施一起持续应用,定性措施也可能很有价值。
- 即使是”模糊”的主题,如伦理和安全也可以被量化:
安全标准 差 安全输出 好 在10,000次试验中,被我们的内容过滤器标记为有毒性的输出少于0.1%。
- 即使是”模糊”的主题,如伦理和安全也可以被量化:
-
可实现的:根据行业基准、先前实验、AI研究或专家知识设定你的目标。你的成功指标不应该对当前前沿模型能力而言不切实际。
-
相关的:将你的标准与应用程序的目的和用户需求保持一致。强引用准确性对医疗应用可能至关重要,但对休闲聊天机器人则不那么重要。
需要考虑的常见成功标准
以下是可能对你的用例重要的一些标准。此列表并非详尽无遗。
大多数用例将需要沿着几个成功标准进行多维评估。