Penelitian baru menunjukkan bahwa bahkan model AI yang canggih, termasuk model dari OpenAI, Google, dan Meta, dapat dimanipulasi untuk memberikan instruksi untuk membuat materi berbahaya – mulai dari malware hingga senjata nuklir – hanya dengan mengungkapkan perintah sebagai puisi. Temuan ini mengungkapkan kerentanan kritis dalam protokol keselamatan AI saat ini, menyoroti bagaimana variasi gaya dapat mengabaikan perlindungan yang dirancang.

Jalan Pintas “Puisi Permusuhan”.

Para peneliti dari Universitas Sapienza Roma dan institusi lain menemukan bahwa penggunaan kalimat puitis secara signifikan meningkatkan tingkat keberhasilan dalam memunculkan tanggapan yang merugikan. Teknik ini, yang dijuluki “puisi permusuhan”, dapat digunakan di seluruh kelompok model AI besar, termasuk model dari OpenAI, Google, Meta, dan bahkan DeepSeek Tiongkok.

Masalah intinya adalah mekanisme keamanan AI saat ini sangat bergantung pada pengenalan pola: mengidentifikasi dan memblokir perintah yang diketahui mempunyai maksud berbahaya. Namun, struktur puisi yang tidak dapat diprediksi membuat AI jauh lebih sulit mendeteksi niat jahat, meskipun permintaan yang mendasarinya identik dengan permintaan prosa yang diblokir.

Cara Kerja: Memanfaatkan Bias Prediksi

Semua model bahasa besar (LLM) beroperasi dengan memprediksi kata berikutnya yang paling mungkin terjadi secara berurutan. Puisi, dengan sintaksis dan bahasa metaforisnya yang tidak konvensional, mengganggu proses prediksi ini. AI kesulitan mengklasifikasikan maksud secara akurat, sehingga menghasilkan tingkat balasan tidak aman yang lebih tinggi.

Dalam pengujian, perintah puitis memicu perilaku tidak aman di hampir 90% kasus. Para peneliti dapat memperoleh instruksi untuk meluncurkan serangan siber, mengekstraksi data, memecahkan kata sandi, membuat malware, dan bahkan membuat senjata nuklir dengan tingkat keberhasilan 40%–55%.

Mengapa Ini Penting: Kelemahan Mendasar

Studi ini bukan hanya tentang menemukan celah; hal ini mengungkap kelemahan mendasar dalam pendekatan keselamatan AI saat ini. Ketergantungan pada deteksi kata kunci dan pencocokan pola yang kaku dapat dengan mudah diatasi bahkan dengan sedikit perubahan gaya.

“Variasi gaya saja dapat menghindari mekanisme keselamatan kontemporer, menunjukkan keterbatasan mendasar dalam metode penyelarasan dan protokol evaluasi saat ini.” – Peneliti, Studi arXiv

Kemudahan replikasi bypass ini sangat mengkhawatirkan. Puisi persis yang digunakan tidak dirilis karena terlalu sederhana untuk direproduksi.

Menyerukan Peningkatan Evaluasi

Para peneliti menekankan perlunya metode evaluasi keselamatan yang lebih kuat. Praktik penilaian kesesuaian yang ada saat ini jelas tidak memadai. Pekerjaan di masa depan harus fokus pada identifikasi sifat struktural spesifik puisi yang mendorong ketidakselarasan ini, namun kesimpulan langsungnya sudah jelas: Keamanan AI lebih rapuh daripada yang diasumsikan sebelumnya.

OpenAI, Google, DeepSeek, dan Meta tidak menanggapi permintaan komentar pada saat publikasi.