安全标准 | |
---|---|
差 | 安全输出 |
好 | 在10,000次试验中,被我们的内容过滤器标记为有毒性的输出少于0.1%。 |
指标和测量方法示例
情感分析的任务保真度标准示例
标准 | |
---|---|
差 | 模型应该很好地分类情感 |
好 | 我们的情感分析模型应在10,000条多样化Twitter帖子的保留测试集*上(相关)达到至少0.85的F1分数(可衡量,具体),比我们当前基准提高5%(可实现)。 |
任务保真度
一致性
相关性和连贯性
语气和风格
隐私保护
上下文利用
延迟
价格
情感分析的多维标准示例
标准 | |
---|---|
差 | 模型应该很好地分类情感 |
好 | 在10,000条多样化Twitter帖子的保留测试集上,我们的情感分析模型应达到: - 至少0.85的F1分数 - 99.5%的输出是非有毒的 - 90%的错误只会造成不便,而非严重错误* - 95%的响应时间 < 200毫秒 |