Pelajari cara mengembangkan kasus uji yang efektif untuk mengukur kinerja LLM terhadap kriteria kesuksesan Anda.
Contoh kasus tepi
Fidelitas tugas (analisis sentimen) - evaluasi pencocokan tepat
Konsistensi (bot FAQ) - evaluasi kesamaan kosinus
Relevansi dan koherensi (peringkasan) - evaluasi ROUGE-L
Nada dan gaya (layanan pelanggan) - skala Likert berbasis LLM
Preservasi privasi (chatbot medis) - klasifikasi biner berbasis LLM
Pemanfaatan konteks (asisten percakapan) - skala ordinal berbasis LLM
output == golden_answer
key_phrase in output
Contoh: Penilaian berbasis LLM