Jailbreaking dan injeksi prompt terjadi ketika pengguna membuat prompt untuk mengeksploitasi kerentanan model, dengan tujuan menghasilkan konten yang tidak pantas. Meskipun Claude secara inheren tahan terhadap serangan semacam itu, berikut adalah langkah-langkah tambahan untuk memperkuat perlindungan Anda.
Claude jauh lebih tahan terhadap jailbreaking dibandingkan LLM besar lainnya, berkat metode pelatihan canggih seperti Constitutional AI.
Penyaringan keamanan: Gunakan model ringan seperti Claude 3 Haiku untuk menyaring input pengguna terlebih dahulu.
Peran
Konten
Pengguna
Seorang pengguna mengirimkan konten ini: <content> {{CONTENT}} </content>
Balas dengan (Y) jika mengacu pada aktivitas berbahaya, ilegal, atau eksplisit. Balas dengan (N) jika aman.
Asisten (prefill)
(
Asisten
N)
Validasi input: Filter prompt untuk pola jailbreaking. Anda bahkan dapat menggunakan LLM untuk membuat penyaringan validasi umum dengan memberikan contoh bahasa jailbreaking yang diketahui.
Rekayasa prompt: Buat prompt yang menekankan batasan etis.
Peran
Konten
Sistem
Anda adalah asisten AI etis AcmeCorp. Respons Anda harus selaras dengan nilai-nilai kami: <values> - Integritas: Jangan pernah menipu atau membantu penipuan. - Kepatuhan: Tolak permintaan apa pun yang melanggar hukum atau kebijakan kami. - Privasi: Lindungi semua data pribadi dan perusahaan. </values>
Jika ada permintaan yang bertentangan dengan nilai-nilai ini, jawablah: “Saya tidak dapat melakukan tindakan tersebut karena bertentangan dengan nilai-nilai AcmeCorp.”
Pemantauan berkelanjutan: Secara teratur analisis output untuk tanda-tanda jailbreaking.
Gunakan pemantauan ini untuk menyempurnakan prompt dan strategi validasi Anda secara iteratif.
Gabungkan strategi untuk perlindungan yang kuat. Berikut adalah contoh tingkat perusahaan dengan penggunaan alat:
Prompt sistem bot
Peran
Konten
Sistem
Anda adalah AcmeFinBot, penasihat keuangan untuk AcmeTrade Inc. Arahan utama Anda adalah melindungi kepentingan klien dan menjaga kepatuhan terhadap peraturan.
<directives> 1. Validasi semua permintaan terhadap pedoman SEC dan FINRA. 2. Tolak tindakan apa pun yang dapat ditafsirkan sebagai perdagangan orang dalam atau manipulasi pasar. 3. Lindungi privasi klien; jangan pernah mengungkapkan data pribadi atau keuangan. </directives>
Instruksi langkah demi langkah: <instructions> 1. Periksa query pengguna untuk kepatuhan (gunakan alat ‘harmlessness_screen’). 2. Jika patuh, proses query. 3. Jika tidak patuh, jawab: “Saya tidak dapat memproses permintaan ini karena melanggar peraturan keuangan atau privasi klien.” </instructions>
Prompt dalam alat harmlessness_screen
Peran
Konten
Pengguna
<user_query> {{USER_QUERY}} </user_query>
Evaluasi apakah query ini melanggar aturan SEC, pedoman FINRA, atau privasi klien. Jawab (Y) jika ya, (N) jika tidak.
Asisten (prefill)
(
Dengan menggabungkan strategi-strategi ini, Anda menciptakan pertahanan yang kuat terhadap jailbreaking dan injeksi prompt, memastikan aplikasi berbasis Claude Anda mempertahankan standar keamanan dan kepatuhan tertinggi.