Lihat buku resep evaluasi kami untuk langsung menuju ke contoh kode.

Mengoptimalkan Claude untuk memberikan akurasi setinggi mungkin pada suatu tugas adalah ilmu empiris dan proses perbaikan berkelanjutan. Baik Anda mencoba menentukan apakah perubahan pada prompt Anda telah meningkatkan kinerja Claude, menguji model Claude yang berbeda satu sama lain, atau menilai apakah kasus penggunaan Anda siap untuk produksi, sistem evaluasi yang dirancang dengan baik sangat penting untuk keberhasilan.

Dalam panduan ini, kami akan memandu Anda melalui siklus hidup pengembangan prompt, berbagai jenis evaluasi (eval) yang dapat Anda gunakan, kelebihan dan kekurangannya, serta memberikan beberapa pedoman tentang cara memilih eval terbaik untuk kasus penggunaan Anda.


Cara menggunakan eval

Eval harus menjadi bagian integral dari seluruh siklus hidup produksi Anda saat bekerja dengan LLM. Mereka memberikan ukuran kinerja kuantitatif yang memungkinkan Anda melacak kemajuan, mengidentifikasi masalah, dan membuat keputusan berdasarkan data. Berikut ini adalah bagaimana eval sesuai dengan berbagai tahap siklus hidup produksi:

  1. Rekayasa prompt: Proses rekayasa prompt harus dimulai dengan membangun serangkaian eval yang ketat, bukan menulis prompt. Eval ini akan berfungsi sebagai dasar untuk mengukur efektivitas prompt Anda dan membantu Anda mengulang dan memperbaikinya dari waktu ke waktu.
  2. Pengembangan: Saat Anda mengembangkan aplikasi atau alur kerja Anda dengan Claude, gunakan eval yang Anda rancang selama fase rekayasa prompt untuk menguji kinerja prompt Anda secara teratur, bahkan jika prompt itu sendiri belum berubah. Bagian dari alur kerja di luar dan di hilir prompt dapat secara tidak sengaja memengaruhi kinerja model. Ini akan membantu Anda mendeteksi masalah sejak dini dan memastikan bahwa alur kerja Anda berjalan seperti yang diharapkan.
  3. Pengujian akhir: Sebelum menyebarkan aplikasi atau alur kerja Anda ke produksi, buat setidaknya satu set eval tambahan yang belum Anda gunakan selama fase pengembangan. Set eval yang disisihkan ini akan membantu Anda menilai kinerja sebenarnya dari prompt Anda dan memastikan bahwa mereka belum terlalu sesuai dengan eval yang digunakan selama pengembangan.
  4. Produksi: Setelah aplikasi atau alur kerja Anda berada dalam produksi, terus gunakan eval untuk memantau kinerja dan mengidentifikasi masalah potensial apa pun. Anda juga dapat menggunakan eval untuk membandingkan kinerja model Claude yang berbeda atau versi prompt Anda untuk membuat keputusan berdasarkan data tentang pembaruan dan perbaikan.

Dengan memasukkan eval di seluruh siklus hidup produksi, Anda dapat memastikan bahwa prompt Anda berkinerja optimal dan aplikasi atau alur kerja Anda memberikan hasil terbaik yang mungkin.


Bagian-bagian eval

Eval biasanya memiliki empat bagian:

  1. Prompt masukan: Prompt yang dimasukkan ke model. Claude menghasilkan penyelesaian (a.k.a. keluaran) berdasarkan prompt ini. Seringkali, saat merancang eval, kolom masukan akan berisi serangkaian masukan variabel yang dimasukkan ke dalam template prompt saat pengujian.
  2. Keluaran: Teks yang dihasilkan dengan menjalankan prompt masukan melalui model yang dievaluasi.
  3. Jawaban emas: Jawaban yang benar yang dibandingkan dengan keluaran model. Jawaban emas bisa berupa kecocokan persis yang wajib atau contoh jawaban sempurna yang dimaksudkan untuk memberikan penilai (manusia atau LLM) titik perbandingan untuk penilaian.
  4. Skor: Nilai numerik, yang dihasilkan oleh salah satu metode penilaian yang dibahas di bawah ini, yang mewakili seberapa baik kinerja model pada pertanyaan tersebut.

Metode penilaian eval

Ada dua aspek eval yang dapat memakan waktu dan mahal: menulis pasangan pertanyaan & jawaban emas, dan penilaian. Sementara menulis pertanyaan dan jawaban emas biasanya merupakan biaya tetap satu kali, penilaian adalah biaya yang akan Anda keluarkan setiap kali Anda menjalankan kembali eval Anda, yang mungkin akan sering Anda lakukan. Akibatnya, membangun eval yang dapat dinilai dengan cepat dan murah harus menjadi pusat pilihan desain Anda.

Ada tiga cara umum untuk menilai eval:

  1. Penilaian berbasis kode: Ini melibatkan penggunaan kode standar (sebagian besar pencocokan string dan ekspresi reguler) untuk menilai keluaran model. Versi umum termasuk memeriksa kecocokan persis dengan jawaban atau memeriksa apakah string berisi beberapa frasa kunci. Ini adalah metode penilaian terbaik jika Anda dapat merancang eval yang memungkinkan untuk itu, karena cepat dan sangat andal. Namun, banyak evaluasi tidak memungkinkan gaya penilaian ini.
  2. Penilaian manusia: Seorang manusia melihat jawaban yang dihasilkan model, membandingkannya dengan jawaban emas, dan memberikan skor. Ini adalah metode penilaian yang paling mampu, karena dapat digunakan pada hampir semua tugas, tetapi juga sangat lambat dan mahal, terutama jika Anda telah membangun eval yang besar. Anda harus sebagian besar mencoba menghindari merancang eval yang memerlukan penilaian manusia jika memungkinkan.
  3. Penilaian berbasis model: Claude sangat mampu menilai dirinya sendiri dan dapat digunakan untuk menilai berbagai tugas yang mungkin secara historis memerlukan manusia, seperti analisis nada dalam penulisan kreatif atau akurasi dalam menjawab pertanyaan bentuk bebas. Anda dapat melakukan ini dengan menulis prompt penilai untuk Claude.

Jenis evaluasi

Ada beberapa jenis evaluasi yang dapat Anda gunakan untuk mengukur kinerja Claude pada suatu tugas. Setiap jenis memiliki kekuatan dan kelemahannya masing-masing.

Jenis EvalDeskripsiKelebihanKekurangan
Pertanyaan pilihan ganda (MCQ)Pertanyaan bentuk tertutup dengan beberapa jawaban, setidaknya satu di antaranya benar- Mudah diotomatisasi- Menilai pengetahuan umum tentang suatu topik- Kunci jawaban yang jelas- Mudah mengetahui seperti apa yang akurat- Potensi kebocoran pelatihan jika tes bersifat publik- Terbatas dalam menilai tugas yang lebih kompleks atau terbuka
Kecocokan persis (EM)Memeriksa apakah jawaban model persis sama dengan string jawaban yang benar- Mudah diotomatisasi- Presisi tinggi dalam menilai pengetahuan atau tugas spesifik- Mudah mengetahui seperti apa yang akurat- Terbatas dalam menilai tugas yang lebih kompleks atau terbuka- Mungkin tidak menangkap variasi dalam jawaban yang benar
Kecocokan stringMemeriksa apakah jawaban model berisi string jawaban- Mudah diotomatisasi- Menilai keberadaan informasi spesifik dalam keluaran model- Mungkin tidak menangkap konteks atau makna penuh dari respons model- Dapat menghasilkan positif palsu atau negatif
Jawaban terbuka (OA)Pertanyaan terbuka yang dapat memiliki beberapa solusi yang mungkin atau memerlukan proses multi-langkah untuk dinilai- Bagus untuk menilai pengetahuan lanjutan, pengetahuan tacit, atau kinerja kualitatif terbuka- Dapat dinilai oleh manusia atau model- Lebih sulit diotomatisasi- Memerlukan rubrik yang jelas untuk penilaian- Penilaian berbasis model mungkin kurang akurat daripada penilaian manusia

Praktik terbaik untuk merancang eval

Saat merancang eval untuk kasus penggunaan spesifik Anda, perhatikan praktik terbaik berikut:

  1. Eval spesifik tugas: Buat eval Anda spesifik untuk tugas Anda jika memungkinkan, dan cobalah agar distribusi dalam eval Anda mewakili distribusi pertanyaan dan kesulitan pertanyaan dalam kehidupan nyata.
  2. Uji penilaian berbasis model: Satu-satunya cara untuk mengetahui apakah penilai berbasis model dapat melakukan pekerjaan yang baik dalam menilai tugas Anda adalah dengan mencobanya dan membaca beberapa sampel untuk melihat apakah tugas Anda adalah kandidat yang baik.
  3. Otomatisasi jika memungkinkan: Seringkali, desain yang cerdas dapat membuat eval dapat diotomatisasi. Cobalah menyusun pertanyaan dengan cara yang memungkinkan penilaian otomatis sambil tetap setia pada tugas. Memformat ulang pertanyaan menjadi pilihan ganda adalah taktik umum.
  4. Prioritaskan volume daripada kualitas: Secara umum, lebih suka volume pertanyaan yang lebih tinggi dan kualitas yang lebih rendah daripada volume yang sangat rendah dengan kualitas tinggi.
  5. Gunakan buku resep eval: Buku resep eval kami menyediakan contoh yang diimplementasikan dari berbagai jenis eval yang dinilai oleh manusia dan model, termasuk panduan dan kode yang dapat Anda salin.

Dengan mengikuti praktik terbaik ini dan memilih jenis eval yang sesuai untuk kasus penggunaan Anda, Anda dapat secara efektif mengukur kinerja Claude dan membuat keputusan berdasarkan data untuk meningkatkan prompt dan alur kerja Anda.