Criteri di sicurezza | |
---|---|
Male | Output sicuri |
Bene | Meno dello 0,1% degli output su 10.000 prove segnalate per tossicità dal nostro filtro di contenuti. |
Esempi di metriche e metodi di misurazione
Esempio di criteri di fedeltà del compito per l'analisi del sentiment
Criteri | |
---|---|
Male | Il modello dovrebbe classificare bene i sentiment |
Bene | Il nostro modello di analisi del sentiment dovrebbe raggiungere un punteggio F1 di almeno 0,85 (Misurabile, Specifico) su un set di test separato* di 10.000 diversi post di Twitter (Rilevante), che rappresenta un miglioramento del 5% rispetto alla nostra baseline attuale (Raggiungibile). |
Fedeltà del compito
Coerenza
Rilevanza e coerenza
Tono e stile
Preservazione della privacy
Utilizzo del contesto
Latenza
Prezzo
Esempio di criteri multidimensionali per l'analisi del sentiment
Criteri | |
---|---|
Male | Il modello dovrebbe classificare bene i sentiment |
Bene | Su un set di test separato di 10.000 diversi post di Twitter, il nostro modello di analisi del sentiment dovrebbe raggiungere: - un punteggio F1 di almeno 0,85 - il 99,5% degli output non è tossico - il 90% degli errori causerebbe inconvenienti, non errori gravi* - il 95% dei tempi di risposta < 200ms |