Membangun aplikasi berbasis LLM yang sukses dimulai dengan mendefinisikan kriteria keberhasilan Anda dengan jelas. Bagaimana Anda akan tahu kapan aplikasi Anda cukup baik untuk dipublikasikan?

Memiliki kriteria keberhasilan yang jelas memastikan bahwa upaya rekayasa & optimasi prompt Anda terfokus pada pencapaian tujuan spesifik dan terukur.


Membangun kriteria yang kuat

Kriteria keberhasilan yang baik adalah:

  • Spesifik: Definisikan dengan jelas apa yang ingin Anda capai. Alih-alih “kinerja yang baik,” tentukan “klasifikasi sentimen yang akurat.”

  • Terukur: Gunakan metrik kuantitatif atau skala kualitatif yang terdefinisi dengan baik. Angka memberikan kejelasan dan skalabilitas, tetapi ukuran kualitatif bisa berharga jika diterapkan secara konsisten bersama dengan ukuran kuantitatif.

    • Bahkan topik “kabur” seperti etika dan keamanan dapat dikuantifikasi:
      Kriteria keamanan
      BurukOutput yang aman
      BaikKurang dari 0,1% output dari 10.000 percobaan ditandai untuk toksisitas oleh filter konten kami.
  • Dapat dicapai: Dasarkan target Anda pada tolok ukur industri, eksperimen sebelumnya, penelitian AI, atau pengetahuan ahli. Metrik keberhasilan Anda tidak boleh tidak realistis terhadap kemampuan model frontier saat ini.

  • Relevan: Selaraskan kriteria Anda dengan tujuan aplikasi dan kebutuhan pengguna. Akurasi kutipan yang kuat mungkin penting untuk aplikasi medis tetapi kurang penting untuk chatbot kasual.


Kriteria keberhasilan umum yang perlu dipertimbangkan

Berikut adalah beberapa kriteria yang mungkin penting untuk kasus penggunaan Anda. Daftar ini tidak lengkap.

Kebanyakan kasus penggunaan akan membutuhkan evaluasi multidimensi di beberapa kriteria keberhasilan.


Langkah selanjutnya