Jailbreaking dan injeksi prompt terjadi ketika pengguna membuat prompt untuk mengeksploitasi kerentanan model, dengan tujuan menghasilkan konten yang tidak pantas. Meskipun Claude secara inheren tahan terhadap serangan semacam itu, berikut adalah langkah-langkah tambahan untuk memperkuat pagar pembatas Anda, terutama terhadap penggunaan yang melanggar Ketentuan Layanan atau Kebijakan Penggunaan kami.

Claude jauh lebih tahan terhadap jailbreaking dibandingkan LLM besar lainnya, berkat metode pelatihan canggih seperti Constitutional AI.
  • Penyaringan keamanan: Gunakan model ringan seperti Claude Haiku 3 untuk pra-penyaringan input pengguna.

  • Validasi input: Filter prompt untuk pola jailbreaking. Anda bahkan dapat menggunakan LLM untuk membuat layar validasi umum dengan menyediakan contoh bahasa jailbreaking yang diketahui.

  • Rekayasa prompt: Buat prompt yang menekankan batasan etika dan hukum.

Sesuaikan respons dan pertimbangkan untuk membatasi atau melarang pengguna yang berulang kali terlibat dalam perilaku kasar yang mencoba menghindari pagar pembatas Claude. Misalnya, jika pengguna tertentu memicu jenis penolakan yang sama berulang kali (misalnya, “output diblokir oleh kebijakan penyaringan konten”), beri tahu pengguna bahwa tindakan mereka melanggar kebijakan penggunaan yang relevan dan ambil tindakan yang sesuai.

  • Pemantauan berkelanjutan: Secara teratur menganalisis output untuk tanda-tanda jailbreaking. Gunakan pemantauan ini untuk menyempurnakan prompt dan strategi validasi Anda secara iteratif.

Lanjutan: Pengamanan berantai

Kombinasikan strategi untuk perlindungan yang kuat. Berikut adalah contoh tingkat perusahaan dengan penggunaan alat:

Dengan melapisi strategi-strategi ini, Anda menciptakan pertahanan yang kuat terhadap jailbreaking dan injeksi prompt, memastikan aplikasi Claude Anda mempertahankan standar keamanan dan kepatuhan tertinggi.