Bagaimana Anda membuat AI menjawab pertanyaan yang tidak seharusnya? Ada banyak teknik “jailbreak” seperti itu, dan peneliti Anthropic baru saja menemukan teknik baru, yang mana model bahasa besar dapat diyakinkan untuk memberi tahu Anda cara membuat bom jika Anda menjawabnya dengan beberapa lusin pertanyaan yang tidak terlalu berbahaya terlebih dahulu.

Mereka menyebutnya pendekatan “jailbreak banyak-shot,” dan memiliki keduanya menulis makalah tentang hal ini dan juga memberi tahu rekan-rekan mereka di komunitas AI tentang hal ini sehingga hal ini dapat dimitigasi.

Kerentanan ini merupakan kerentanan baru, akibat meningkatnya “jendela konteks” pada LLM generasi terbaru. Ini adalah jumlah data yang dapat mereka simpan dalam apa yang Anda sebut memori jangka pendek, yang dahulu hanya berupa beberapa kalimat, namun sekarang menjadi ribuan kata dan bahkan seluruh buku.

Apa yang ditemukan oleh peneliti Anthropic adalah bahwa model dengan jendela konteks besar cenderung bekerja lebih baik pada banyak tugas jika ada banyak contoh tugas tersebut dalam prompt. Jadi, jika ada banyak pertanyaan trivia di prompt (atau dokumen dasar, seperti daftar besar trivia yang ada dalam konteks model), jawabannya akan menjadi lebih baik seiring berjalannya waktu. Jadi faktanya mungkin salah jika itu pertanyaan pertama, mungkin benar jika itu pertanyaan keseratus.

Namun dalam perluasan tak terduga dari “pembelajaran dalam konteks” ini, model juga menjadi “lebih baik” dalam menjawab pertanyaan yang tidak pantas. Jadi kalau diminta segera membuat bom, mereka akan menolak. Namun jika Anda memintanya untuk menjawab 99 pertanyaan lain yang tingkat bahayanya lebih rendah dan kemudian memintanya untuk membuat bom… kemungkinan besar mereka akan mematuhinya.

Kredit Gambar: Antropis

Mengapa ini berhasil? Tidak ada yang benar-benar memahami apa yang terjadi dalam kekacauan bobot yang merupakan LLM, tapi jelas ada beberapa mekanisme yang memungkinkannya untuk memahami apa yang diinginkan pengguna, sebagaimana dibuktikan oleh konten di jendela konteks. Jika pengguna menginginkan hal-hal sepele, tampaknya secara bertahap akan mengaktifkan kekuatan trivia yang lebih laten saat Anda mengajukan lusinan pertanyaan. Dan untuk alasan apa pun, hal yang sama terjadi pada pengguna yang menanyakan lusinan jawaban yang tidak pantas.

Tim tersebut telah memberi tahu rekan-rekannya dan bahkan para pesaingnya tentang serangan ini, sesuatu yang diharapkan akan “menumbuhkan budaya di mana eksploitasi seperti ini dibagikan secara terbuka di antara penyedia dan peneliti LLM.”

Untuk mitigasinya sendiri, mereka menemukan bahwa meskipun membatasi jendela konteks membantu, hal ini juga berdampak negatif pada performa model. Tidak dapat memilikinya — jadi mereka berupaya mengklasifikasikan dan mengontekstualisasikan kueri sebelum masuk ke model. Tentu saja, hal ini membuat Anda memiliki model yang berbeda untuk ditipu… tetapi pada tahap ini, kemajuan dalam keamanan AI sudah bisa diharapkan.

Sumber