Industri AI semakin beralih ke model AI generatif dengan konteks yang lebih panjang. Namun model dengan jendela konteks yang besar cenderung membutuhkan komputasi yang intensif. Ori Goshen, CEO startup AI AI21 Labs, menegaskan bahwa hal tersebut tidak harus terjadi — dan perusahaannya merilis model generatif untuk membuktikannya.

Konteks, atau jendela konteks, mengacu pada data masukan (misalnya teks) yang dipertimbangkan model sebelum menghasilkan keluaran (lebih banyak teks). Model dengan jendela konteks kecil cenderung melupakan konten percakapan terkini, sedangkan model dengan konteks lebih besar menghindari kesalahan ini — dan, sebagai manfaat tambahan, lebih memahami aliran data yang diambil.

Jamba dari AI21 Labs, model penghasil dan analisis teks baru, dapat melakukan banyak tugas yang sama dengan model seperti ChatGPT OpenAI dan Gemini Google. Terlatih dalam perpaduan data publik dan kepemilikan, Jamba dapat menulis teks dalam bahasa Inggris, Prancis, Spanyol, dan Portugis.

Jamba dapat menangani hingga 140.000 token saat dijalankan pada satu GPU dengan memori minimal 80 GB (seperti Nvidia A100 kelas atas). Itu berarti sekitar 105.000 kata, atau 210 halaman — sebuah novel berukuran layak.

Llama 2 Meta, sebagai perbandingan, memiliki jendela konteks 32.000 token — lebih kecil menurut standar saat ini — tetapi hanya membutuhkan GPU dengan memori ~12GB untuk dapat dijalankan. (Jendela konteks biasanya diukur dalam token, yang merupakan potongan teks mentah dan data lainnya.)

Secara sepintas, Jamba biasa-biasa saja. Ada banyak model AI generatif yang tersedia secara gratis dan dapat diunduh, mulai dari DBRX Databricks yang baru dirilis hingga Llama 2 yang disebutkan di atas.

Namun yang membuat Jamba unik adalah apa yang ada di baliknya. Ia menggunakan kombinasi dua arsitektur model: transformator dan model ruang negara (SSM).

Transformer adalah arsitektur pilihan untuk tugas-tugas penalaran yang kompleks, mendukung model seperti GPT-4 dan Google Gemini, misalnya. Mereka mempunyai beberapa karakteristik unik, namun sejauh ini fitur penentu transformator adalah “mekanisme perhatian” mereka. Untuk setiap bagian data masukan (misalnya kalimat), transformator Menimbang relevansi setiap masukan lainnya (kalimat lain) dan memanfaatkannya untuk menghasilkan keluaran (kalimat baru).

SSM, di sisi lain, menggabungkan beberapa kualitas model AI jenis lama, seperti jaringan saraf berulang dan jaringan saraf konvolusional, untuk menciptakan arsitektur komputasi yang lebih efisien yang mampu menangani rangkaian data yang panjang.

Sekarang, SSM memiliki keterbatasannya. Namun beberapa inkarnasi awal, termasuk model sumber terbuka dari peneliti Princeton dan Carnegie Mellon yang disebut Mamba, dapat menangani masukan yang lebih besar daripada model berbasis transformator sekaligus mengungguli mereka dalam tugas pembuatan bahasa.

Jamba sebenarnya menggunakan Mamba sebagai model dasar — ​​dan Goshen mengklaim bahwa jamba memberikan throughput tiga kali lipat pada konteks yang panjang dibandingkan dengan model berbasis transformator dengan ukuran yang sebanding.

“Meskipun ada beberapa contoh akademis awal model SSM, ini adalah model skala produksi kelas komersial pertama,” kata Goshen dalam sebuah wawancara dengan TechCrunch. “Arsitektur ini, selain inovatif dan menarik untuk penelitian lebih lanjut oleh komunitas, juga membuka kemungkinan efisiensi dan hasil yang besar.”

Kini, meskipun Jamba telah dirilis di bawah lisensi Apache 2.0, sebuah lisensi open source dengan batasan penggunaan yang relatif sedikit, Goshen menekankan bahwa ini adalah rilis penelitian yang tidak dimaksudkan untuk digunakan secara komersial. Model ini tidak memiliki perlindungan untuk mencegahnya menghasilkan teks yang beracun atau mitigasi untuk mengatasi potensi bias; versi yang lebih baik dan tampaknya “lebih aman” akan tersedia dalam beberapa minggu mendatang.

Namun Goshen menegaskan bahwa Jamba menunjukkan potensi arsitektur SSM bahkan pada tahap awal.

“Nilai tambahan dari model ini, baik karena ukurannya maupun arsitekturnya yang inovatif, adalah dapat dengan mudah dipasang ke dalam satu GPU,” ujarnya. “Kami yakin kinerja akan semakin meningkat seiring dengan perubahan tambahan yang dilakukan Mamba.”

Sumber