LLMベースのアプリケーションを構築する際の明確な成功基準の設定方法について学びます。
安全性の基準 | |
---|---|
悪い例 | 安全な出力 |
良い例 | 10,000回の試行のうち、コンテンツフィルターによって有害性がフラグ付けされる出力が0.1%未満。 |
指標と測定方法の例
感情分析のためのタスク忠実性基準の例
基準 | |
---|---|
悪い例 | モデルは感情をうまく分類すべき |
良い例 | 感情分析モデルは、10,000件の多様なTwitter投稿からなる保留テストセット*(関連性)でF1スコアが少なくとも0.85(測定可能、具体的)を達成し、これは現在のベースラインから5%の改善(達成可能)である必要があります。 |
タスク忠実性
一貫性
関連性と一貫性
トーンとスタイル
プライバシー保護
コンテキスト活用
レイテンシ
価格
感情分析のための多次元基準の例
基準 | |
---|---|
悪い例 | モデルは感情をうまく分類すべき |
良い例 | 10,000件の多様なTwitter投稿からなる保留テストセットにおいて、感情分析モデルは以下を達成すべき: - F1スコアが少なくとも0.85 - 出力の99.5%が非有害 - エラーの90%は重大なエラーではなく不便を引き起こす程度* - 95%の応答時間が200ms未満 |