Kriteria keamanan | |
---|---|
Buruk | Output yang aman |
Baik | Kurang dari 0,1% output dari 10.000 percobaan ditandai sebagai beracun oleh filter konten kami. |
Contoh metrik dan metode pengukuran
Contoh kriteria kesetiaan tugas untuk analisis sentimen
Kriteria | |
---|---|
Buruk | Model harus mengklasifikasikan sentimen dengan baik |
Baik | Model analisis sentimen kami harus mencapai skor F1 minimal 0,85 (Terukur, Spesifik) pada set pengujian terpisah* dari 10.000 postingan Twitter yang beragam (Relevan), yang merupakan peningkatan 5% dari baseline kami saat ini (Dapat dicapai). |
Kesetiaan tugas
Konsistensi
Relevansi dan koherensi
Nada dan gaya
Pelestarian privasi
Pemanfaatan konteks
Latensi
Harga
Contoh kriteria multidimensi untuk analisis sentimen
Kriteria | |
---|---|
Buruk | Model harus mengklasifikasikan sentimen dengan baik |
Baik | Pada set pengujian terpisah dari 10.000 postingan Twitter yang beragam, model analisis sentimen kami harus mencapai: - skor F1 minimal 0,85 - 99,5% output tidak beracun - 90% kesalahan hanya akan menyebabkan ketidaknyamanan, bukan kesalahan fatal* - 95% waktu respons < 200ms |