Moderasi konten adalah aspek penting dalam mempertahankan lingkungan yang aman, hormat, dan produktif dalam aplikasi digital. Dalam panduan ini, kami akan membahas bagaimana Claude dapat digunakan untuk memoderasi konten dalam aplikasi digital Anda.
Kunjungi buku panduan moderasi konten kami untuk melihat contoh implementasi moderasi konten menggunakan Claude.
Anda menginginkan implementasi yang hemat biaya dan cepat
Anda menginginkan pemahaman semantik dan keputusan cepat
Anda membutuhkan keputusan kebijakan yang konsisten
Kebijakan moderasi Anda kemungkinan akan berubah atau berkembang seiring waktu
Anda memerlukan penalaran yang dapat diinterpretasi untuk keputusan moderasi Anda
Anda membutuhkan dukungan multibahasa tanpa memelihara model terpisah
Anda memerlukan dukungan multimodal
This movie was great, I really enjoyed it. The main actor really killed it!
, sistem moderasi konten perlu mengenali bahwa “killed it” adalah metafora, bukan indikasi kekerasan yang sebenarnya. Sebaliknya, meskipun tidak ada penyebutan kekerasan secara eksplisit, komentar Delete this post now or you better hide. I am coming after you and your family.
harus ditandai oleh sistem moderasi konten.
Daftar unsafe_categories
dapat disesuaikan dengan kebutuhan spesifik Anda. Misalnya, jika Anda ingin mencegah anak di bawah umur membuat konten di situs web Anda, Anda dapat menambahkan “Underage Posting” ke daftar tersebut.
explanation
dari respons.moderate_message
berisi prompt penilaian yang mencakup kategori konten tidak aman dan pesan yang ingin kita evaluasi. Prompt tersebut meminta Claude untuk menilai apakah pesan tersebut harus dimoderasi, berdasarkan kategori tidak aman yang telah kita tentukan.
Penilaian model kemudian diuraikan untuk menentukan apakah ada pelanggaran. Jika ada pelanggaran, Claude juga mengembalikan daftar kategori yang dilanggar, serta penjelasan mengapa pesan tersebut tidak aman.
assess_risk_level
yang menggunakan Claude untuk mengevaluasi tingkat risiko suatu pesan. Fungsi ini menerima pesan dan daftar kategori tidak aman sebagai input.
Di dalam fungsi, prompt dibuat untuk Claude, termasuk pesan yang akan dinilai, kategori tidak aman, dan instruksi khusus untuk mengevaluasi tingkat risiko. Prompt menginstruksikan Claude untuk merespons dengan objek JSON yang mencakup tingkat risiko, kategori yang dilanggar, dan penjelasan opsional.
Pendekatan ini memungkinkan moderasi konten yang fleksibel dengan menetapkan tingkat risiko. Ini dapat diintegrasikan dengan mulus ke dalam sistem yang lebih besar untuk mengotomatisasi penyaringan konten atau menandai komentar untuk ditinjau manusia berdasarkan tingkat risiko yang dinilai. Misalnya, saat menjalankan kode ini, komentar Delete this post now or you better hide. I am coming after you and your family.
diidentifikasi sebagai berisiko tinggi karena ancaman berbahayanya. Sebaliknya, komentar Stay away from the 5G cellphones!! They are using 5G to control you.
dikategorikan sebagai berisiko sedang.
explanation
dalam respons Claude.
moderate_message_with_definitions
memperluas fungsi moderate_message
sebelumnya dengan memungkinkan setiap kategori tidak aman dipasangkan dengan definisi terperinci. Ini terjadi dalam kode dengan mengganti daftar unsafe_categories
dari fungsi asli dengan kamus unsafe_category_definitions
. Kamus ini memetakan setiap kategori tidak aman ke definisinya yang sesuai. Baik nama kategori maupun definisinya disertakan dalam prompt.
Perhatikan bahwa definisi untuk kategori Specialized Advice
sekarang menentukan jenis saran keuangan yang harus dilarang. Akibatnya, komentar It's a great time to invest in gold!
, yang sebelumnya lolos penilaian moderate_message
, sekarang memicu pelanggaran.
batch_moderate_messages
menangani moderasi seluruh batch pesan dengan satu panggilan API Claude.
Di dalam fungsi, prompt dibuat yang mencakup daftar pesan yang akan dievaluasi, kategori konten tidak aman yang ditentukan, dan deskripsinya. Prompt mengarahkan Claude untuk mengembalikan objek JSON yang mencantumkan semua pesan yang berisi pelanggaran. Setiap pesan dalam respons diidentifikasi oleh id-nya, yang sesuai dengan posisi pesan dalam daftar input.
Perlu diingat bahwa menemukan ukuran batch optimal untuk kebutuhan spesifik Anda mungkin memerlukan beberapa eksperimen. Meskipun ukuran batch yang lebih besar dapat menurunkan biaya, mereka juga mungkin menyebabkan sedikit penurunan kualitas. Selain itu, Anda mungkin perlu meningkatkan parameter max_tokens
dalam panggilan API Claude untuk mengakomodasi respons yang lebih panjang. Untuk detail tentang jumlah maksimum token yang dapat dihasilkan model pilihan Anda, lihat halaman perbandingan model.