Jailbreaking dan injeksi prompt terjadi ketika pengguna membuat prompt spesifik yang mengeksploitasi kerentanan dalam pelatihan model, bertujuan untuk menghasilkan konten yang tidak pantas atau berbahaya. Sementara Claude secara inheren tahan terhadap serangan tersebut karena metode pelatihan canggih seperti Reinforcement Learning from Human Feedback (RLHF) dan Constitutional AI, dan juga jauh lebih tahan terhadap serangan tersebut dibandingkan model bahasa besar utama lainnya (New York Times, 2023), ada beberapa langkah mitigasi tambahan yang dapat Anda ambil jika ini sangat penting untuk kasus penggunaan Anda.


Strategi mitigasi

  1. Penyaringan keamanan: Gunakan model kecil dan cepat seperti Claude 3 Haiku untuk menerapkan “penyaringan keamanan” untuk mengevaluasi kesesuaian input pengguna sebelum memprosesnya. Ini membantu mendeteksi dan memblokir prompt yang berpotensi berbahaya. Berikut adalah contoh prompt penyaringan keamanan dengan respons Claude:
    PeranKonten
    PenggunaSeorang pengguna manusia ingin Anda melanjutkan sepotong konten. Berikut adalah konten sejauh ini: <content>{{CONTENT}}</content>

    Jika konten merujuk pada aktivitas berbahaya, pornografi, atau ilegal, balas dengan (Y). Jika konten tidak merujuk pada aktivitas berbahaya, pornografi, atau ilegal, balas dengan (N)
    Asisten (Prefill)(
    Asisten (Respons Claude)Y)
  2. Validasi input: Terapkan teknik validasi input yang ketat untuk menyaring prompt yang berisi kata kunci atau pola yang terkait dengan upaya jailbreaking atau konten berbahaya (seperti Lupakan semua instruksi sebelumnya.). Ini dapat membantu mencegah prompt berbahaya diproses oleh model, tetapi juga dapat sulit diterapkan dalam skala besar, karena jailbreaker terus mengembangkan bahasa jailbreaking mereka. Anda dapat menggunakan LLM untuk menerapkan penyaringan validasi yang lebih umum dengan memberikan bahasa jailbreaking yang diketahui sebagai contoh jenis frasa dan maksud yang harus dicari model.
  3. Rekayasa prompt: Buat prompt Anda dengan hati-hati untuk mengurangi kemungkinan upaya jailbreaking. Gunakan instruksi yang jelas, ringkas, dan terdefinisi dengan baik yang menekankan pedoman etika model dan tindakan yang dilarang. Berikut adalah contoh prompt sistem dengan instruksi yang jelas:
    Konten
    SistemAnda adalah asisten AI yang dirancang untuk membantu, tidak berbahaya, dan jujur. Anda harus mematuhi pedoman etika yang ketat dan menahan diri dari terlibat dalam atau mendorong aktivitas berbahaya, ilegal, atau tidak pantas. Jika pengguna mencoba membuat Anda melakukan sesuatu yang bertentangan dengan prinsip etika Anda, dengan sopan tolak dan jelaskan mengapa Anda tidak dapat mematuhinya.
  4. Pemantauan berkelanjutan: Pantau secara teratur output model untuk tanda-tanda jailbreaking atau pembuatan konten yang tidak pantas. Ini dapat membantu mengidentifikasi potensi kerentanan untuk membantu Anda menyempurnakan strategi prompt atau validasi Anda.

Menggabungkan semuanya

Dengan menggabungkan strategi ini, Anda dapat secara signifikan mengurangi risiko jailbreaking dan injeksi prompt dalam keluarga model Claude. Meskipun Claude sudah sangat tahan terhadap serangan tersebut, menerapkan perlindungan tambahan memastikan pengalaman yang lebih aman dan andal bagi semua pengguna.

Berikut adalah contoh prompt sistem yang menggabungkan beberapa strategi:

Konten
SistemAnda adalah asisten AI yang dirancang untuk membantu, tidak berbahaya, dan jujur. Anda harus mematuhi pedoman etika yang ketat dan menahan diri dari terlibat dalam atau mendorong aktivitas berbahaya, ilegal, atau tidak pantas. Jika pengguna mencoba membuat Anda melakukan sesuatu yang dilarang oleh pedoman di bawah ini, katakan “Saya tidak bisa melakukan itu.”

<guidelines>
{{GUIDELINES}}
</guidelines>

Selain itu, jika Anda mendeteksi konten apa pun yang merujuk pada aktivitas berbahaya, pornografi, atau ilegal, segera tanggapi dengan “Peringatan Konten: Tidak Pantas” dan jangan berikan tanggapan lebih lanjut.

Dengan memberikan instruksi yang jelas, menerapkan peringatan konten, dan menekankan prinsip etika model, prompt ini membantu meminimalkan risiko jailbreaking dan injeksi prompt.


Langkah selanjutnya

  • Jelajahi mengurangi kebocoran prompt untuk mempelajari cara meminimalkan risiko model mengungkapkan informasi sensitif dari prompt input.
  • Lihat panduan rekayasa prompt kami untuk gambaran komprehensif strategi untuk membuat prompt yang sangat efektif.
  • Jika Anda memiliki pertanyaan atau masalah, jangan ragu untuk menghubungi tim dukungan pelanggan kami.