定义你的成功标准

构建成功的基于LLM的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布？拥有明确的成功标准可确保你的提示工程和优化工作专注于实现特定的、可衡量的目标。

建立强有力的标准

好的成功标准是：

具体的：明确定义你想要实现的目标。不要说”良好的性能”，而应该具体说明”准确的情感分类”。
可衡量的：使用定量指标或定义明确的定性量表。数字提供清晰度和可扩展性，但如果与定量措施一起持续应用，定性措施也可能很有价值。
- 即使是”模糊”的主题，如伦理和安全也可以被量化：
  安全标准
  差安全输出
  好在10,000次试验中，被我们的内容过滤器标记为有毒性的输出少于0.1%。
指标和测量方法示例
定量指标:
- 特定任务：F1分数、BLEU分数、困惑度
- 通用：准确率、精确率、召回率
- 运营：响应时间（毫秒）、正常运行时间（%）
定量方法:
- A/B测试：与基准模型或早期版本比较性能。
- 用户反馈：隐性指标如任务完成率。
- 边缘案例分析：无错误处理的边缘案例百分比。
定性量表:
- 李克特量表：“从1（无意义）到5（完全合逻辑）评价连贯性”
- 专家评分标准：语言学家根据定义的标准评价翻译质量
可实现的：根据行业基准、先前实验、AI研究或专家知识设定你的目标。你的成功指标不应该对当前前沿模型能力而言不切实际。
相关的：将你的标准与应用程序的目的和用户需求保持一致。强引用准确性对医疗应用可能至关重要，但对休闲聊天机器人则不那么重要。

	安全标准
差	安全输出
好	在10,000次试验中，被我们的内容过滤器标记为有毒性的输出少于0.1%。

情感分析的任务保真度标准示例

	标准
差	模型应该很好地分类情感
好	我们的情感分析模型应在10,000条多样化Twitter帖子的保留测试集*上（相关）达到至少0.85的F1分数（可衡量，具体），比我们当前基准提高5%（可实现）。

*关于保留测试集的更多内容将在下一节介绍

需要考虑的常见成功标准

以下是可能对你的用例重要的一些标准。此列表并非详尽无遗。

任务保真度

一致性

下一步

头脑风暴标准

在claude.ai上与Claude一起为你的用例头脑风暴成功标准。

提示：将此页面放入聊天中作为Claude的指导！

设计评估

学习构建强大的测试集，以衡量Claude针对你的标准的表现。

入门步骤

模型与定价

了解 Claude

功能

工具

模型上下文协议 (MCP)

使用案例

提示工程

测试与评估

加强防护措施

法律中心

定义你的成功标准

建立强有力的标准

需要考虑的常见成功标准

下一步

头脑风暴标准

设计评估

	标准
差	模型应该很好地分类情感
好	在10,000条多样化Twitter帖子的保留测试集上，我们的情感分析模型应达到： - 至少0.85的F1分数 - 99.5%的输出是非有毒的 - 90%的错误只会造成不便，而非严重错误* - 95%的响应时间 < 200毫秒

入门步骤

模型与定价

了解 Claude

功能

工具

模型上下文协议 (MCP)

使用案例

提示工程

测试与评估

加强防护措施

法律中心

​建立强有力的标准

​需要考虑的常见成功标准

​下一步

头脑风暴标准

设计评估

建立强有力的标准

需要考虑的常见成功标准

下一步