Home Techno Fairgen 'meningkatkan' hasil survei menggunakan data sintetis dan respons yang dihasilkan AI

Techno

Fairgen 'meningkatkan' hasil survei menggunakan data sintetis dan respons yang dihasilkan AI

9 May 2024

Survei telah digunakan untuk mendapatkan wawasan tentang populasi, produk, dan opini publik sejak dahulu kala. Meskipun metodologi mungkin telah berubah selama ribuan tahun, ada satu hal yang tetap sama: Kebutuhan akan orang, banyak orang.

Namun bagaimana jika Anda tidak dapat menemukan cukup banyak orang untuk membentuk kelompok sampel yang cukup besar guna memberikan hasil yang berarti? Atau, bagaimana jika Anda berpotensi menemukan cukup banyak orang, namun keterbatasan anggaran membatasi jumlah orang yang dapat Anda sumber dan wawancarai?

Di sinilah Fairgen ingin membantu. Startup Israel hari ini meluncurkan platform yang menggunakan “AI statistik” untuk menghasilkan data sintetis yang menurut mereka sama bagusnya dengan aslinya. Perusahaan ini juga mengumumkan penggalangan dana baru sebesar $5,5 juta dari Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia, dan beberapa angel investor, sehingga total dana yang dikumpulkan sejak awal menjadi $8 juta.

'Data palsu'

Data mungkin adalah sumber kehidupan AI, tetapi ini juga telah menjadi landasan riset pasar sejak lama. Jadi ketika kedua dunia ini bertabrakan, seperti yang terjadi di dunia Fairgen, kebutuhan akan data berkualitas menjadi lebih besar.

Didirikan di Tel Aviv, Israel, pada tahun 2021, Fairgen sebelumnya menjadi fokus mengatasi bias dalam AI. Namun pada akhir tahun 2022, perusahaan beralih ke produk baru, peningkatan yang adilyang sekarang diluncurkan dari versi beta.

Fairboost berjanji untuk “meningkatkan” kumpulan data yang lebih kecil hingga tiga kali lipat, memungkinkan wawasan yang lebih terperinci tentang ceruk pasar yang mungkin terlalu sulit atau mahal untuk dijangkau. Dengan menggunakan ini, perusahaan dapat melatih model pembelajaran mesin yang mendalam untuk setiap kumpulan data yang mereka unggah ke platform Fairgen, dengan pola pembelajaran AI statistik di berbagai segmen survei.

Konsep “data sintetis” – data yang dibuat secara artifisial dan bukan dari kejadian di dunia nyata – bukanlah hal baru. Akarnya berasal dari masa awal komputasi, ketika digunakan untuk menguji perangkat lunak dan algoritme, serta mensimulasikan proses. Namun data sintetis, seperti yang kita pahami saat ini, telah berkembang pesat, terutama dengan munculnya pembelajaran mesin, yang semakin banyak digunakan untuk melatih model. Kami dapat mengatasi masalah kelangkaan data serta masalah privasi data dengan menggunakan data buatan yang tidak berisi informasi sensitif.

Fairgen adalah startup terbaru yang menguji data sintetis, dan menjadikan riset pasar sebagai target utamanya. Perlu dicatat bahwa Fairgen tidak menghasilkan data begitu saja, atau membuang jutaan survei historis ke dalam wadah peleburan yang didukung AI — peneliti pasar perlu menjalankan survei untuk sampel kecil dari target pasar mereka, dan dari situ, Fairgen menetapkan pola untuk memperluas sampel. Perusahaan mengatakan mereka dapat menjamin setidaknya peningkatan dua kali lipat pada sampel asli, namun rata-rata, dapat mencapai peningkatan tiga kali lipat.

Dengan cara ini, Fairgen mungkin dapat membuktikan bahwa seseorang dengan kelompok usia dan/atau tingkat pendapatan tertentu lebih cenderung menjawab pertanyaan dengan cara tertentu. Atau, gabungkan sejumlah titik data untuk melakukan ekstrapolasi dari kumpulan data asli. Ini pada dasarnya tentang menghasilkan apa yang dilakukan oleh salah satu pendiri dan CEO Fairgen Samuel Cohen dikatakan sebagai “segmen data yang lebih kuat dan kuat, dengan margin kesalahan yang lebih rendah.”

“Realisasi utamanya adalah masyarakat menjadi semakin beragam – merek perlu beradaptasi dengan hal tersebut, dan mereka perlu memahami segmen pelanggan mereka,” jelas Cohen kepada TechCrunch. “Segmennya sangat berbeda – generasi Z mempunyai cara berpikir yang berbeda dengan orang yang lebih tua. Dan untuk dapat memiliki pemahaman pasar ini di tingkat segmen, membutuhkan banyak biaya, membutuhkan banyak waktu dan sumber daya operasional. Dan di situlah saya menyadari titik sakitnya. Kami tahu bahwa data sintetis mempunyai peran di sana.”

Kritik yang jelas – yang diakui oleh perusahaan sebagai hal yang mereka hadapi – adalah bahwa semua ini terdengar seperti jalan pintas besar untuk terjun ke lapangan, mewawancarai orang-orang nyata dan mengumpulkan pendapat nyata.

Tentunya kelompok yang kurang terwakili harus khawatir bahwa suara mereka yang sebenarnya digantikan oleh suara-suara palsu?

“Setiap pelanggan yang kami ajak bicara di bidang penelitian memiliki titik buta yang sangat besar — khalayak yang sangat sulit dijangkau,” kepala pertumbuhan Fairgen, Fernando Zatz, kata TechCrunch. “Mereka sebenarnya tidak menjual proyek karena jumlah orang yang tersedia tidak mencukupi, terutama di dunia yang semakin beragam di mana Anda memiliki banyak segmentasi pasar. Terkadang mereka tidak bisa pergi ke negara tertentu; mereka tidak bisa masuk ke demografi tertentu, sehingga mereka justru merugi dalam proyek karena tidak bisa mencapai kuota. Mereka memiliki jumlah minimum [of respondents]dan jika mereka tidak mencapai angka tersebut, mereka tidak menjual wawasannya.”

Fairgen bukan satu-satunya perusahaan yang menerapkan AI generatif pada bidang riset pasar. Qualtrics tahun lalu mengatakan pihaknya menginvestasikan $500 juta selama empat tahun untuk menghadirkan AI generatif ke platformnya, meskipun dengan fokus substantif pada penelitian kualitatif. Namun, ini adalah bukti lebih lanjut bahwa data sintetis masih ada dan akan tetap ada.

Namun memvalidasi hasil akan memainkan peran penting dalam meyakinkan masyarakat bahwa hal ini adalah hal yang nyata dan bukan tindakan penghematan biaya yang akan menghasilkan hasil yang kurang optimal. Fairgen melakukan ini dengan membandingkan peningkatan sampel “nyata” dengan peningkatan sampel “sintetis” – ini mengambil sampel kecil dari kumpulan data, mengekstrapolasinya, dan menempatkannya berdampingan dengan yang asli.

“Dengan setiap pelanggan yang kami daftarkan, kami melakukan pengujian yang persis sama,” kata Cohen.

Secara statistik

Cohen memiliki gelar MSc dalam ilmu statistik dari Universitas Oxford, dan gelar PhD dalam pembelajaran mesin dari UCL London, yang sebagian diantaranya melibatkan tugas sembilan bulan sebagai ilmuwan peneliti di Meta.

Salah satu pendiri perusahaan adalah ketua Benny Schnaideryang sebelumnya berkecimpung di bidang perangkat lunak perusahaan, dengan empat pintu keluar atas namanya: Ravello ke Oracle dengan harga $500 juta yang dilaporkan pada tahun 2016; keluar dari Qumranet menuju Red Hat sebesar $107 juta pada tahun 2008; P-Cube ke Cisco untuk $200 juta pada tahun 2004; dan Pentacom ke Cisco seharga $118 pada tahun 2000.

Lalu ada Emmanuel Candesprofesor statistik dan teknik elektro di Universitas Stanford, yang menjabat sebagai penasihat ilmiah utama Fairgen.

Tulang punggung bisnis dan matematika ini adalah nilai jual utama bagi perusahaan yang mencoba meyakinkan dunia bahwa data palsu bisa sama bagusnya dengan data asli, jika diterapkan dengan benar. Ini juga merupakan cara mereka dapat menjelaskan dengan jelas ambang batas dan batasan teknologinya — seberapa besar sampel yang dibutuhkan untuk mencapai peningkatan yang optimal.

Menurut Cohen, idealnya mereka membutuhkan setidaknya 300 responden nyata untuk sebuah survei, dan dari situ Fairboost dapat meningkatkan ukuran segmen yang tidak lebih dari 15% dari survei yang lebih luas.

“Di bawah 15%, kami dapat menjamin peningkatan rata-rata 3x setelah memvalidasinya dengan ratusan pengujian paralel,” kata Cohen. “Secara statistik, kenaikannya tidak terlalu dramatis di atas 15%. Data tersebut sudah menunjukkan tingkat kepercayaan yang baik, dan responden sintetis kami berpotensi menyamainya atau memberikan sedikit peningkatan. Dari segi bisnis, tidak ada kendala di atas 15% — merek sudah dapat mengambil pembelajaran dari kelompok ini; mereka hanya terjebak di level niche.”

Faktor tanpa LLM

Perlu dicatat bahwa Fairgen tidak menggunakan model bahasa besar (LLM), dan platformnya tidak menghasilkan tanggapan “bahasa Inggris biasa” ala ChatGPT. Alasannya adalah LLM akan menggunakan pembelajaran dari berbagai sumber data lain di luar parameter penelitian, sehingga meningkatkan kemungkinan timbulnya bias yang tidak sesuai dengan penelitian kuantitatif.

Fairgen berfokus pada model statistik dan data tabular, dan pelatihannya hanya mengandalkan data yang terdapat dalam kumpulan data yang diunggah. Hal ini secara efektif memungkinkan peneliti pasar untuk menghasilkan responden baru dan sintetis dengan melakukan ekstrapolasi dari segmen yang berdekatan dalam survei.

“Kami tidak menggunakan LLM apa pun karena alasan yang sangat sederhana, yaitu jika kami melakukan pra-pelatihan dalam banyak hal [other] survei, itu hanya akan menyampaikan informasi yang salah,” kata Cohen. “Karena ada kasus di mana mereka mempelajari sesuatu dalam survei lain, dan kami tidak menginginkan hal itu. Ini semua tentang keandalan.”

Dalam hal model bisnis, Fairgen dijual sebagai SaaS, dengan perusahaan mengunggah survei mereka dalam format terstruktur apa pun (.CSV, atau .SAV) ke platform berbasis cloud Fairgen. Menurut Cohen, dibutuhkan waktu hingga 20 menit untuk melatih model berdasarkan data survei yang diberikan, tergantung jumlah pertanyaannya. Pengguna kemudian memilih “segmen” (sekumpulan responden yang memiliki karakteristik tertentu) — misalnya, “Gen Z yang bekerja di industri x,” — dan kemudian Fairgen mengirimkan file baru yang terstruktur secara identik dengan file pelatihan asli, dengan file yang sama persis pertanyaan, hanya baris baru.

Fairgen sedang digunakan oleh BVA dan firma jajak pendapat dan riset pasar Perancis IFOP, yang telah mengintegrasikan teknologi startup ke dalam layanan mereka. IFOP, yang kurang lebih mirip Gallup di AS, menggunakan Fairgen untuk tujuan pemungutan suara dalam pemilu Eropa, meskipun Cohen berpendapat bahwa Fairgen mungkin juga akan digunakan untuk pemilu AS akhir tahun ini.

“IFOP pada dasarnya adalah tanda persetujuan kami, karena sudah ada selama 100 tahun,” kata Cohen. “Mereka memvalidasi teknologi dan merupakan mitra desain asli kami. Kami juga sedang menguji atau sudah berintegrasi dengan beberapa perusahaan riset pasar terbesar di dunia, yang belum boleh saya bicarakan.”

Sumber

'Data palsu'

Secara statistik

Faktor tanpa LLM

RELATED ARTICLESMORE FROM AUTHOR

OpenseedVC, yang mendukung operator di Afrika dan Eropa untuk memulai perusahaan mereka, mencapai penutupan pertama dana sebesar $10 juta

Pine Labs mendapat persetujuan pengadilan Singapura untuk memindahkan basisnya ke India

Inggris membuka kantor di San Francisco untuk mengatasi risiko AI

RELATED ARTICLES MORE FROM AUTHOR