Halusinasi – kebohongan yang pada dasarnya disampaikan oleh model AI generatif – adalah masalah besar bagi bisnis yang ingin mengintegrasikan teknologi ke dalam operasi mereka.

Karena model tidak memiliki kecerdasan nyata dan hanya memprediksi kata, gambar, ucapan, musik, dan data lainnya berdasarkan skema pribadi, terkadang model melakukan kesalahan. Salah besar. Dalam artikel terbaru di The Wall Street Journal, a sumber menceritakan contoh ketika AI generatif Microsoft menemukan peserta rapat dan menyiratkan bahwa panggilan konferensi adalah tentang topik yang tidak benar-benar dibahas dalam panggilan tersebut.

Seperti yang saya tulis beberapa waktu lalu, halusinasi mungkin menjadi masalah yang tidak dapat diselesaikan dengan arsitektur model berbasis transformator saat ini. Namun sejumlah vendor AI generatif menyarankan hal tersebut Bisa dapat dihilangkan, kurang lebih, melalui pendekatan teknis yang disebut retrieval augmented generation, atau RAG.

Begini cara salah satu vendor, Squirro, melontarkannya:

Inti dari penawaran ini adalah konsep Retrieval Augmented LLM atau Retrieval Augmented Generation (RAG) yang tertanam dalam solusi … [our generative AI] unik dalam janjinya untuk tidak mengalami halusinasi. Setiap informasi yang dihasilkan dapat ditelusuri ke sumbernya, sehingga menjamin kredibilitas.

Ini a nada serupa dari SiftHub:

Menggunakan teknologi RAG dan model bahasa besar yang disempurnakan dengan pelatihan pengetahuan khusus industri, SiftHub memungkinkan perusahaan menghasilkan respons yang dipersonalisasi tanpa halusinasi. Hal ini menjamin peningkatan transparansi dan pengurangan risiko serta menginspirasi kepercayaan mutlak untuk menggunakan AI untuk semua kebutuhan mereka.

RAG dipelopori oleh ilmuwan data Patrick Lewis, peneliti di Meta dan University College London, dan penulis utama makalah tahun 2020. kertas yang menciptakan istilah tersebut. Diterapkan pada model, RAG mengambil dokumen yang mungkin relevan dengan pertanyaan — misalnya, halaman Wikipedia tentang Super Bowl — menggunakan pencarian kata kunci dan kemudian meminta model untuk menghasilkan jawaban berdasarkan konteks tambahan ini.

“Saat Anda berinteraksi dengan model AI generatif seperti ChatGPT atau Llama dan Anda mengajukan pertanyaan, defaultnya adalah model tersebut menjawab dari 'memori parametrik' – yaitu, dari pengetahuan yang disimpan dalam parameternya sebagai hasil dari pelatihan tentang data besar-besaran dari web,” jelas David Wadden, ilmuwan peneliti di AI2, divisi penelitian yang berfokus pada AI di lembaga nirlaba Allen Institute. “Tapi, kemungkinan besar Anda akan memberikan jawaban yang lebih akurat jika Anda memiliki referensi [like a book or a file] di depan Anda, hal yang sama juga berlaku dalam beberapa kasus untuk model.”

RAG tidak dapat disangkal berguna – memungkinkan seseorang untuk mengatribusikan hal-hal yang dihasilkan model ke dokumen yang diambil untuk memverifikasi faktualitasnya (dan, sebagai manfaat tambahan, menghindari potensi regurgitasi yang melanggar hak cipta). RAG juga memungkinkan perusahaan yang tidak ingin dokumen mereka digunakan untuk melatih model – misalnya, perusahaan di industri yang diatur secara ketat seperti layanan kesehatan dan hukum – untuk memungkinkan model memanfaatkan dokumen tersebut dengan cara yang lebih aman dan sementara.

Tapi RAG tentu saja tidak bisa menghentikan model agar tidak berhalusinasi. Dan ini memiliki keterbatasan yang diabaikan oleh banyak vendor.

Wadden mengatakan bahwa RAG paling efektif dalam skenario “intensif pengetahuan” di mana pengguna ingin menggunakan model untuk memenuhi “kebutuhan informasi” – misalnya, untuk mengetahui siapa yang memenangkan Super Bowl tahun lalu. Dalam skenario ini, dokumen yang menjawab pertanyaan kemungkinan besar berisi banyak kata kunci yang sama dengan pertanyaan tersebut (misalnya, “Super Bowl,” “tahun lalu”), sehingga relatif mudah ditemukan melalui pencarian kata kunci.

Segalanya menjadi lebih rumit dengan tugas-tugas yang “intensif penalaran” seperti pengkodean dan matematika, di mana lebih sulit untuk menentukan dalam kueri penelusuran berbasis kata kunci konsep-konsep yang diperlukan untuk menjawab permintaan — apalagi mengidentifikasi dokumen mana yang mungkin relevan.

Bahkan dengan pertanyaan mendasar, model dapat “terganggu” oleh konten yang tidak relevan dalam dokumen, terutama pada dokumen panjang yang jawabannya tidak jelas. Atau mereka dapat — karena alasan yang belum diketahui — mengabaikan saja isi dokumen yang diambil, dan memilih untuk mengandalkan memori parametriknya.

RAG juga mahal dalam hal perangkat keras yang diperlukan untuk menerapkannya dalam skala besar.

Hal ini karena dokumen yang diambil, baik dari web, database internal, atau di tempat lain, harus disimpan di memori — setidaknya untuk sementara — agar model dapat merujuk kembali ke dokumen tersebut. Pengeluaran lainnya dihitung untuk peningkatan konteks yang harus diproses oleh model sebelum menghasilkan responsnya. Untuk teknologi yang sudah terkenal dengan jumlah komputasi dan listrik yang dibutuhkan bahkan untuk pengoperasian dasar, hal ini merupakan pertimbangan yang serius.

Namun bukan berarti RAG tidak bisa diperbaiki. Wadden mencatat banyak upaya berkelanjutan untuk melatih model agar dapat memanfaatkan dokumen yang diambil RAG dengan lebih baik.

Beberapa dari upaya ini melibatkan model yang dapat “memutuskan” kapan akan menggunakan dokumen, atau model yang dapat memilih untuk tidak melakukan pengambilan jika dirasa tidak diperlukan. Yang lain berfokus pada cara mengindeks kumpulan data dokumen dalam jumlah besar secara lebih efisien, dan meningkatkan pencarian melalui representasi dokumen yang lebih baik — representasi yang melampaui kata kunci.

“Kami cukup baik dalam mengambil dokumen berdasarkan kata kunci, namun tidak begitu baik dalam mengambil dokumen berdasarkan konsep yang lebih abstrak, seperti teknik pembuktian yang diperlukan untuk memecahkan masalah matematika,” kata Wadden. “Penelitian diperlukan untuk membangun representasi dokumen dan teknik pencarian yang dapat mengidentifikasi dokumen relevan untuk tugas pembuatan yang lebih abstrak. Saya pikir ini sebagian besar merupakan pertanyaan terbuka pada saat ini.”

Jadi RAG dapat membantu mengurangi halusinasi suatu model — tetapi RAG bukanlah jawaban atas semua masalah halusinasi AI. Waspadalah terhadap vendor mana pun yang mencoba mengklaim sebaliknya.

Sumber