Penyelidik Singapura Bina Bot Sembang AI Yang Boleh 'Jailbreak' Bot Sembang Lain

Jailbreak kini tidak lagi terhad hanya untuk telefon pintar.

Ia selepas penyelidik sains komputer dari Universiti Teknologi Nanyang (NTU) Singapura telah membangunkan bot sembang dengan kecerdasan buatan (AI) yang berupaya menjejaskan bot sembang AI yang lain.

Pasukan itu mendakwa, jailbreak AI mereka dapat menjejaskan kedua-dua ChatGPT dan Google Bard, yang menyebabkan model tersebut menghasilkan kandungan terlarang.

Menggelarkan teknik mereka sebagai "Masterkey", pasukan itu melakukan 'reverse-engineer' ke atas model bahasa besar (LLM) popular untuk memahami cara mereka mempertahankan diri daripada pertanyaan berniat jahat.

Kapsyen: Pelajar Ph.D. NTU, Encik Liu Yi, pengarang bersama kertas kajian itu menunjukkan pangkalan data gesaan jailbreak yang berjaya menjejaskan bot sembang AI lain. Kredit: Universiti Teknologi Nanyang


Menggunakan data terkumpul yang boleh memintas Bard dan ChatGPT, mereka melatih LLM mereka sendiri untuk memahami dan memintas pertahanan AI.

Masterkey pada asasnya boleh mencari gesaan (prompt) yang memperdaya bot lain untuk mengatakan sesuatu yang tidak sepatutnya mereka katakan.

Setelah aktif, jailbreak AI boleh beroperasi secara autonomi, mencipta penyelesaian baharu berdasarkan data latihannya apabila pembangun menambah dan mengubah suai perlindungan untuk LLM mereka.

Tidak berniat mahu mencipta baka baharu AI yang berbahaya, pasukan penyelidik itu hanya mendedahkan batasan pendekatan semasa terhadap keselamatan AI.

Penemuan mereka mungkin penting dalam membantu syarikat dan perniagaan menyedari kelemahan dan batasan chatbots LLM mereka supaya mereka boleh mengambil langkah untuk mengukuhkannya terhadap penggodam.

Penyelidik juga telah memaklumkan OpenAI dan Google serta kepada penyedia perkhidmatan yang berkaitan tentang teknik jailbreak ini.

{suggest}

Sumber: Extreme Tech