Setelah menentukan kriteria keberhasilan Anda, langkah selanjutnya adalah merancang evaluasi untuk mengukur kinerja LLM terhadap kriteria tersebut. Ini adalah bagian penting dari siklus rekayasa prompt.

Panduan ini berfokus pada cara mengembangkan kasus uji Anda.

Membangun evaluasi dan kasus uji

Prinsip desain evaluasi

  1. Spesifik untuk tugas: Rancang evaluasi yang mencerminkan distribusi tugas dunia nyata Anda. Jangan lupa untuk memperhitungkan kasus-kasus ekstrem!
  2. Otomatisasi jika memungkinkan: Strukturkan pertanyaan untuk memungkinkan penilaian otomatis (misalnya, pilihan ganda, pencocokan string, penilaian berbasis kode, penilaian berbasis LLM).
  3. Prioritaskan volume daripada kualitas: Lebih banyak pertanyaan dengan penilaian otomatis yang sedikit lebih rendah sinyalnya lebih baik daripada lebih sedikit pertanyaan dengan evaluasi yang dinilai tangan manusia berkualitas tinggi.

Contoh evaluasi

Menulis ratusan kasus uji bisa sulit dilakukan dengan tangan! Minta Claude untuk membantu Anda menghasilkan lebih banyak dari serangkaian kasus uji contoh dasar.
Jika Anda tidak tahu metode evaluasi apa yang mungkin berguna untuk menilai kriteria keberhasilan Anda, Anda juga bisa bertukar pikiran dengan Claude!

Menilai evaluasi

Saat memutuskan metode mana yang akan digunakan untuk menilai evaluasi, pilih metode yang paling cepat, paling andal, dan paling dapat diskalakan:

  1. Penilaian berbasis kode: Paling cepat dan paling andal, sangat dapat diskalakan, tetapi juga kurang nuansa untuk penilaian yang lebih kompleks yang memerlukan fleksibilitas yang lebih besar daripada aturan kaku.

    • Pencocokan tepat: output == golden_answer
    • Pencocokan string: key_phrase in output
  2. Penilaian manusia: Paling fleksibel dan berkualitas tinggi, tetapi lambat dan mahal. Hindari jika memungkinkan.

  3. Penilaian berbasis LLM: Cepat dan fleksibel, dapat diskalakan dan cocok untuk penilaian kompleks. Uji terlebih dahulu untuk memastikan keandalan kemudian skalakan.

Tips untuk penilaian berbasis LLM

  • Memiliki rubrik yang terperinci dan jelas: “Jawaban harus selalu menyebutkan ‘Acme Inc.’ dalam kalimat pertama. Jika tidak, jawaban otomatis dinilai sebagai ‘salah.‘”
    Kasus penggunaan tertentu, atau bahkan kriteria keberhasilan spesifik untuk kasus penggunaan tersebut, mungkin memerlukan beberapa rubrik untuk evaluasi holistik.
  • Empiris atau spesifik: Misalnya, instruksikan LLM untuk hanya mengeluarkan ‘benar’ atau ‘salah’, atau untuk menilai dari skala 1-5. Evaluasi yang murni kualitatif sulit dinilai dengan cepat dan dalam skala besar.
  • Dorong penalaran: Minta LLM untuk berpikir terlebih dahulu sebelum memutuskan skor evaluasi, dan kemudian buang penalarannya. Ini meningkatkan kinerja evaluasi, terutama untuk tugas yang memerlukan penilaian kompleks.

Langkah selanjutnya