Tentukan kriteria keberhasilan Anda

Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria keberhasilan Anda dengan jelas. Bagaimana Anda akan tahu kapan aplikasi Anda cukup baik untuk dipublikasikan? Memiliki kriteria keberhasilan yang jelas memastikan bahwa upaya rekayasa & optimasi prompt Anda terfokus pada pencapaian tujuan spesifik dan terukur.

Membangun kriteria yang kuat

Kriteria keberhasilan yang baik adalah:

Spesifik: Tentukan dengan jelas apa yang ingin Anda capai. Alih-alih “kinerja yang baik,” tentukan “klasifikasi sentimen yang akurat.”
Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif bisa berharga jika diterapkan secara konsisten bersamaan dengan ukuran kuantitatif.
- Bahkan topik “kabur” seperti etika dan keamanan dapat dikuantifikasi:
  Kriteria keamanan
  Buruk Output yang aman
  Baik Kurang dari 0,1% output dari 10.000 percobaan ditandai sebagai beracun oleh filter konten kami.
Contoh metrik dan metode pengukuran
Metrik kuantitatif:
- Khusus tugas: Skor F1, skor BLEU, perplexity
- Umum: Akurasi, presisi, recall
- Operasional: Waktu respons (ms), uptime (%)
Metode kuantitatif:
- Pengujian A/B: Bandingkan kinerja dengan model dasar atau versi sebelumnya.
- Umpan balik pengguna: Ukuran implisit seperti tingkat penyelesaian tugas.
- Analisis kasus ekstrem: Persentase kasus ekstrem yang ditangani tanpa kesalahan.
Skala kualitatif:
- Skala Likert: “Nilai koherensi dari 1 (tidak masuk akal) hingga 5 (sangat logis)”
- Rubrik ahli: Ahli bahasa menilai kualitas terjemahan berdasarkan kriteria yang ditentukan
Dapat dicapai: Dasarkan target Anda pada tolok ukur industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik keberhasilan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.
Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi tidak terlalu penting untuk chatbot kasual.

	Kriteria keamanan
Buruk	Output yang aman
Baik	Kurang dari 0,1% output dari 10.000 percobaan ditandai sebagai beracun oleh filter konten kami.

Contoh kriteria kesetiaan tugas untuk analisis sentimen

	Kriteria
Buruk	Model harus mengklasifikasikan sentimen dengan baik
Baik	Model analisis sentimen kami harus mencapai skor F1 minimal 0,85 (Terukur, Spesifik) pada set pengujian terpisah* dari 10.000 postingan Twitter yang beragam (Relevan), yang merupakan peningkatan 5% dari baseline kami saat ini (Dapat dicapai).

*Lebih lanjut tentang set pengujian terpisah di bagian berikutnya

Kriteria keberhasilan umum yang perlu dipertimbangkan

Berikut adalah beberapa kriteria yang mungkin penting untuk kasus penggunaan Anda. Daftar ini tidak lengkap.

Kesetiaan tugas

Konsistensi

Relevansi dan koherensi

Nada dan gaya

Pelestarian privasi

Pemanfaatan konteks

Latensi

Harga

Sebagian besar kasus penggunaan akan memerlukan evaluasi multidimensi di beberapa kriteria keberhasilan.

Contoh kriteria multidimensi untuk analisis sentimen

	Kriteria
Buruk	Model harus mengklasifikasikan sentimen dengan baik
Baik	Pada set pengujian terpisah dari 10.000 postingan Twitter yang beragam, model analisis sentimen kami harus mencapai: - skor F1 minimal 0,85 - 99,5% output tidak beracun - 90% kesalahan hanya akan menyebabkan ketidaknyamanan, bukan kesalahan fatal* - 95% waktu respons < 200ms

*Dalam kenyataannya, kita juga akan mendefinisikan apa arti “ketidaknyamanan” dan “fatal”.

Langkah selanjutnya

Brainstorm kriteria

Brainstorm kriteria keberhasilan untuk kasus penggunaan Anda dengan Claude di claude.ai.

Tip: Masukkan halaman ini ke dalam obrolan sebagai panduan untuk Claude!

Desain evaluasi

Pelajari cara membangun set pengujian yang kuat untuk mengukur kinerja Claude terhadap kriteria Anda.

Langkah pertama

Model & harga

Pelajari tentang Claude

Kemampuan

Alat

Model Context Protocol (MCP)

Kasus penggunaan

Rekayasa prompt

Uji & evaluasi

Perkuat pagar pengaman

Pusat Hukum

Tentukan kriteria keberhasilan Anda

Membangun kriteria yang kuat

Kriteria keberhasilan umum yang perlu dipertimbangkan

Langkah selanjutnya

Brainstorm kriteria

Desain evaluasi

Langkah pertama

Model & harga

Pelajari tentang Claude

Kemampuan

Alat

Model Context Protocol (MCP)

Kasus penggunaan

Rekayasa prompt

Uji & evaluasi

Perkuat pagar pengaman

Pusat Hukum

​Membangun kriteria yang kuat

​Kriteria keberhasilan umum yang perlu dipertimbangkan

​Langkah selanjutnya

Brainstorm kriteria

Desain evaluasi

Membangun kriteria yang kuat

Kriteria keberhasilan umum yang perlu dipertimbangkan

Langkah selanjutnya