Pertarungan antara perangkat lunak sumber terbuka dan perangkat lunak berpemilik telah dipahami dengan baik. Namun ketegangan yang terjadi di kalangan perangkat lunak selama beberapa dekade telah merambah ke bidang kecerdasan buatan yang sedang berkembang, dengan kontroversi yang sedang hangat.

New York Times baru-baru ini menerbitkan penilaian yang mengalir deras CEO Meta Mark Zuckerberg, mencatat bagaimana penerapan “AI open source” telah menjadikannya populer sekali lagi di Silicon Valley. Namun masalahnya adalah model bahasa besar bermerek Llama milik Meta tidak benar-benar open source.

Atau benarkah?

Menurut sebagian besar perkiraan, sebenarnya tidak demikian. Namun hal ini menyoroti bagaimana gagasan “AI open source” hanya akan memicu lebih banyak perdebatan di tahun-tahun mendatang. Ini adalah sesuatu yang Inisiatif Sumber Terbuka (OSI) sedang mencoba untuk mengatasi, dipimpin oleh direktur eksekutif Stefano Maffulli (gambar di atas), yang telah menangani masalah ini selama lebih dari dua tahun melalui upaya global yang mencakup konferensi, lokakarya, panel, webinar, laporan, dan banyak lagi.

AI bukanlah kode perangkat lunak

Kredit Gambar: Westend61 melalui Getty

OSI telah menjadi pengurusnya Definisi Sumber Terbuka (OSD) selama lebih dari seperempat abad, menjelaskan bagaimana istilah “open source” dapat, atau seharusnya, diterapkan pada perangkat lunak. Lisensi yang memenuhi definisi ini secara sah dapat dianggap sebagai “sumber terbuka”, meskipun lisensi tersebut mengakui a spektrum lisensi mulai dari sangat permisif hingga tidak terlalu permisif.

Namun mengalihkan lisensi lama dan konvensi penamaan dari perangkat lunak ke AI merupakan suatu permasalahan. Joseph Jackpenginjil sumber terbuka dan pendiri perusahaan VC Modal OSSbahkan mengatakan bahwa ada “tidak ada yang namanya AI sumber terbuka,” mencatat bahwa “open source diciptakan secara eksplisit untuk kode sumber perangkat lunak.”

Sebaliknya, “bobot jaringan saraf” (NNWs) – istilah yang digunakan dalam dunia kecerdasan buatan untuk menggambarkan parameter atau koefisien yang digunakan jaringan untuk belajar selama proses pelatihan – sama sekali tidak sebanding dengan perangkat lunak.

“Bobot bersih neural bukanlah kode sumber perangkat lunak; mereka tidak dapat dibaca oleh manusia, juga tidak dapat di-debug,” kata Jacks. “Selain itu, hak-hak dasar open source juga tidak diterapkan pada NNW dengan cara yang selaras.”

Hal ini dipimpin Jacks dan rekannya di OSS Capital Heather Meeker ke datang dengan definisi mereka sendiri tentang macam-macamseputar konsep “bobot terbuka”.

Jadi, bahkan sebelum kita sampai pada definisi yang bermakna tentang “AI open source”, kita sudah dapat melihat beberapa ketegangan yang ada dalam upaya untuk mencapainya. Bagaimana kita bisa menyetujui suatu definisi jika kita tidak setuju bahwa “sesuatu” yang kita definisikan itu ada?

Maffulli, terlepas dari manfaatnya, setuju.

“Intinya benar,” katanya kepada TechCrunch. “Salah satu perdebatan awal yang kami lakukan adalah apakah akan menyebutnya sebagai AI open source, tetapi semua orang sudah menggunakan istilah tersebut.”

Hal ini mencerminkan beberapa tantangan di bidang AI yang lebih luas, di mana banyak perdebatan mengenai apakah hal yang kita sebut “AI” saat ini benar-benar AI atau hanya sistem canggih yang diajarkan untuk menemukan pola di antara sejumlah besar data. Namun sebagian besar penentangnya sudah pasrah dengan kenyataan bahwa nomenklatur “AI” sudah ada, dan tidak ada gunanya menentangnya.

Ilustrasi lama
Kredit Gambar: Larysa Amosova melalui Getty

Didirikan pada tahun 1998, OSI adalah perusahaan nirlaba yang bergerak di bidang kepentingan publik yang melakukan berbagai aktivitas terkait sumber terbuka seputar advokasi, pendidikan, dan alasan utamanya: Definisi Sumber Terbuka. Saat ini, organisasi ini mengandalkan sponsor untuk pendanaan, dengan anggota terhormat seperti Amazon, Google, Microsoft, Cisco, Intel, Salesforce, dan Meta.

Keterlibatan Meta dengan OSI sangat penting saat ini karena berkaitan dengan gagasan “AI open source.” Meskipun Meta menggantungkan topi AI-nya pada pasak sumber terbukaperusahaan ini memiliki batasan penting mengenai bagaimana model Llama dapat digunakan: Tentu saja, model tersebut dapat digunakan secara gratis untuk penelitian dan kasus penggunaan komersial, namun pengembang aplikasi dengan lebih dari 700 juta pengguna bulanan harus meminta lisensi khusus dari Meta, yang mana ia akan memberikan murni atas kebijakannya sendiri.

Sederhananya, rekan-rekan Meta di bidang Teknologi dapat bersiul jika mereka ingin ikut serta.

Bahasa Meta di sekitar LLM-nya agak mudah ditempa. Sementara perusahaan memang meneleponnya Sumber terbuka model Llama 2dengan kedatangan Llama 3 pada bulan April, terminologinya agak menyimpang, menggunakan frase seperti “tersedia secara terbuka” dan “dapat diakses secara terbuka”. Namun di beberapa tempat justru demikian masih mengacu pada modelnya sebagai “sumber terbuka”.

“Semua orang yang terlibat dalam percakapan ini sangat setuju bahwa Llama sendiri tidak dapat dianggap open source,” kata Maffulli. “Orang-orang yang pernah berbicara dengan saya dan bekerja di Meta, mereka tahu bahwa ini agak sulit.”

Selain itu, beberapa orang mungkin berpendapat bahwa ada konflik kepentingan di sini: sebuah perusahaan yang telah menunjukkan keinginan untuk mendukung branding open source juga memberikan pendanaan kepada pengelola “definisi”?

Inilah salah satu alasan mengapa OSI mencoba mendiversifikasi pendanaannya, dengan baru-baru ini mendapatkan hibah dari OSI Yayasan Sloan, yang membantu mendanai dorongan global multi-pemangku kepentingan untuk mencapai Definisi AI Sumber Terbuka. TechCrunch dapat mengungkapkan jumlah hibah ini sekitar $250.000, dan Maffulli berharap hal ini dapat mengubah pandangan mengenai ketergantungannya pada pendanaan perusahaan.

“Itulah salah satu hal yang semakin jelas dari hibah Sloan: Kita bisa mengucapkan selamat tinggal pada uang Meta kapan saja,” kata Maffulli. “Kita bisa melakukan itu bahkan sebelum Sloan Grant ini, karena saya tahu kita akan mendapatkan sumbangan dari orang lain. Dan Meta mengetahui hal itu dengan baik. Mereka tidak ikut campur dalam semua ini [process]begitu pula Microsoft, GitHub, Amazon, atau Google — mereka benar-benar tahu bahwa mereka tidak dapat ikut campur, karena struktur organisasi tidak mengizinkan hal itu.”

Definisi kerja AI sumber terbuka

Ilustrasi konsep yang menggambarkan pencarian definisi
Kredit Gambar: Aleksei Morozov / Getty Gambar

Draf Definisi AI Sumber Terbuka saat ini ada di versi 0.0.8, yang terdiri dari tiga bagian inti: “pembukaan”, yang menjabarkan kewenangan dokumen; Definisi AI Sumber Terbuka itu sendiri; dan daftar periksa yang menelusuri komponen-komponen yang diperlukan untuk sistem AI yang sesuai dengan sumber terbuka.

Sesuai dengan rancangan saat ini, sistem AI Open Source harus memberikan kebebasan untuk menggunakan sistem untuk tujuan apa pun tanpa meminta izin; untuk memungkinkan orang lain mempelajari cara kerja sistem dan memeriksa komponen-komponennya; dan untuk memodifikasi dan berbagi sistem untuk tujuan apa pun.

Namun salah satu tantangan terbesar adalah seputar data — yaitu, dapatkah sistem AI diklasifikasikan sebagai “open source” jika perusahaan belum menyediakan kumpulan data pelatihan untuk dimanfaatkan oleh pihak lain? Menurut Maffulli, yang lebih penting adalah mengetahui dari mana data tersebut berasal, dan bagaimana pengembang memberi label, menghapus duplikasi, dan memfilter data tersebut. Dan juga, memiliki akses ke kode yang digunakan untuk merakit kumpulan data dari berbagai sumbernya.

“Jauh lebih baik mengetahui informasi tersebut daripada memiliki kumpulan data biasa tanpa data lainnya,” kata Maffulli.

Meskipun memiliki akses ke kumpulan data lengkap akan menyenangkan (OSI menjadikan ini sebagai komponen “opsional”), Maffulli mengatakan bahwa hal ini tidak mungkin atau tidak praktis dalam banyak kasus. Hal ini mungkin terjadi karena terdapat informasi rahasia atau berhak cipta dalam kumpulan data yang tidak boleh didistribusikan ulang oleh pengembang. Selain itu, terdapat teknik untuk melatih model pembelajaran mesin yang datanya sendiri tidak dibagikan dengan sistem, menggunakan teknik seperti pembelajaran gabungan, privasi diferensial, dan enkripsi homomorfik.

Dan hal ini secara sempurna menyoroti perbedaan mendasar antara “perangkat lunak sumber terbuka” dan “AI sumber terbuka”: Tujuannya mungkin serupa, namun keduanya tidak dapat dibandingkan, dan perbedaan inilah yang coba ditangkap oleh OSI di dalamnya. definisi.

Dalam perangkat lunak, kode sumber dan kode biner adalah dua pandangan dari artefak yang sama: Keduanya mencerminkan program yang sama dalam bentuk yang berbeda. Namun kumpulan data pelatihan dan model yang dilatih berikutnya merupakan hal yang berbeda: Anda dapat menggunakan kumpulan data yang sama, dan Anda belum tentu dapat membuat ulang model yang sama secara konsisten.

“Ada berbagai logika statistik dan acak yang terjadi selama pelatihan sehingga tidak dapat direplikasi dengan cara yang sama seperti perangkat lunak,” tambah Maffulli.

Jadi sistem AI open source harus mudah direplikasi, dengan instruksi yang jelas. Dan di sinilah aspek daftar periksa Definisi AI Sumber Terbuka berperan, yang didasarkan pada a makalah akademis yang baru saja diterbitkan berjudul “Kerangka Keterbukaan Model: Mempromosikan Kelengkapan dan Keterbukaan untuk Reproduksibilitas, Transparansi, dan Kegunaan dalam Kecerdasan Buatan.”

Makalah ini mengusulkan Model Openness Framework (MOF), sebuah sistem klasifikasi yang menilai model pembelajaran mesin “berdasarkan kelengkapan dan keterbukaannya.” Kementerian Keuangan menuntut agar komponen spesifik dari pengembangan model AI “dimasukkan dan dirilis di bawah lisensi terbuka yang sesuai,” termasuk metodologi pelatihan dan rincian seputar parameter model.

Kondisi yang stabil

Stefano Maffulli memberikan presentasi pada pertemuan puncak anggota Aliansi Barang Publik Digital (DPGA) di Addis Ababa
Stefano Maffulli memberikan presentasi pada pertemuan puncak anggota Aliansi Barang Publik Digital (DPGA) di Addis Ababa.
Kredit Gambar: OSI

OSI menyebut peluncuran resmi definisi tersebut sebagai “versi stabil”, seperti yang akan dilakukan perusahaan terhadap aplikasi yang telah menjalani pengujian ekstensif dan debugging sebelum prime time. OSI sengaja tidak menyebutnya sebagai “rilis final” karena sebagian darinya kemungkinan besar akan berkembang.

“Kami tidak dapat mengharapkan definisi ini bertahan selama 26 tahun seperti Definisi Open Source,” kata Maffulli. “Saya tidak mengharapkan definisi bagian atas — seperti 'apa itu sistem AI?' — untuk banyak berubah. Tapi bagian-bagian yang kita rujuk di checklist, daftar komponen itu bergantung pada teknologi? Besok, siapa yang tahu teknologinya akan seperti apa.”

Definisi AI Open Source yang stabil diharapkan dapat disetujui oleh Dewan di Konferensi Semua Hal Terbuka pada akhir bulan Oktober, OSI memulai roadshow global pada bulan-bulan berikutnya yang mencakup lima benua, mencari lebih banyak “masukan yang beragam” tentang bagaimana “AI open source” akan didefinisikan di masa depan. Namun perubahan akhir apa pun kemungkinan besar hanya sekedar “perubahan kecil” di sana-sini.

“Ini adalah peregangan terakhir,” kata Maffulli. “Kami telah mencapai versi definisi yang lengkap; kami memiliki semua elemen yang kami butuhkan. Sekarang kami memiliki daftar periksa, jadi kami memeriksa apakah tidak ada kejutan di sana; tidak ada sistem yang harus dimasukkan atau dikecualikan.”

Sumber