OpenAI memikat dunia teknologi beberapa bulan lalu dengan model AI generatif, Sora, yang mengubah deskripsi adegan menjadi video asli — tidak memerlukan kamera atau kru film. Namun sejauh ini Sora masih dibatasi dengan ketat, dan perusahaan tersebut tampaknya mengarahkannya ke perusahaan kreatif yang memiliki pendanaan besar sutradara Hollywood — bukan penghobi atau pemasar kecil-kecilan.

Alex Mashrabov, mantan kepala AI generatif di Snap, merasakan adanya peluang. Jadi dia meluncurkannya Higgsfield AIplatform pembuatan dan pengeditan video bertenaga AI yang dirancang untuk aplikasi yang lebih disesuaikan dan dipersonalisasi.

Didukung oleh model teks-ke-video khusus, aplikasi pertama Higgsfield, Diffuse, dapat menghasilkan video dari awal atau mengambil selfie dan menghasilkan klip yang dibintangi orang tersebut.

“Target audiens kami adalah semua jenis pembuat konten,” kata Mashrabov kepada TechCrunch dalam sebuah wawancara, “mulai dari pengguna biasa yang ingin membuat konten menyenangkan bersama teman-temannya hingga pembuat konten sosial yang ingin mencoba format konten baru hingga pemasar media sosial yang menginginkan merek mereka. untuk menonjol.”

Mashrabov bergabung dengan Snap melalui AI Factory, startup sebelumnya, yang diakuisisi Snap pada tahun 2020 seharga $166 juta. Saat berada di Snap, Mashrabov membantu membuat produk seperti efek AR dan filter untuk Snapchat, termasuk Cameos, serta chabot MyAI Snapchat yang kontroversial.

Higgsfield — yang diluncurkan bersama Mashrabov dengan Yerzat Dulat, seorang peneliti AI yang berspesialisasi dalam video generatif, beberapa bulan lalu — menawarkan serangkaian klip yang telah dibuat sebelumnya, alat untuk mengunggah media referensi (yaitu gambar dan video) dan editor cepat yang memungkinkan pengguna mendeskripsikan karakter, tindakan, dan adegan yang ingin mereka gambarkan. Dengan menggunakan Diffuse, pengguna dapat memasukkan diri mereka langsung ke dalam adegan yang dihasilkan AI, atau membuat kemiripan digital mereka meniru sesuatu — seperti gerakan tarian — yang terekam dalam video lain.

Kredit Gambar: Higgsfield

“Model kami mendukung gerakan dan ekspresi yang sangat realistis,” kata Mashrabov. “Kami memelopori 'model dunia' bagi konsumen, yang memungkinkan kami membuat pembuatan dan pengeditan video terbaik di kelasnya dengan tingkat kontrol yang tinggi.”

Higgsfield bukan satu-satunya startup video generatif yang bersaing dengan OpenAI. Landasan pacu adalah salah satu yang pertama hadir, dan peralatannya terus ditingkatkan. Ada juga Haiper, yang mendapat dukungan dari dua alumni DeepMind dan dana ventura lebih dari $13 juta.

Mashrabov berpendapat bahwa Diffuse akan menonjol berkat strategi masuk ke pasar yang mengutamakan seluler dan mengedepankan sosial.

“Dengan memprioritaskan aplikasi iOS dan Android dibandingkan alur kerja desktop, kami memungkinkan pembuat konten membuat konten media sosial yang menarik kapan saja dan di mana saja,” kata Mashrabov. “Tentu saja, dengan mengembangkan perangkat seluler, kami dapat memprioritaskan kemudahan penggunaan dan fitur-fitur yang ramah konsumen sejak hari pertama.”

Higgsfield juga berjalan ramping. Mashrabov mengatakan bahwa model generatif yang mendasari platform ini dikembangkan oleh tim beranggotakan 16 orang dalam waktu kurang dari sembilan bulan dan dilatih pada sekelompok 32 GPU. (32 GPU mungkin terdengar banyak, tetapi mengingat OpenAI menggunakan puluhan ribu, ternyata tidak Sungguh.) Dan Higgsfield baru mengumpulkan $8 juta hingga saat ini, yang sebagian besar berasal dari tahap pendanaan awal baru-baru ini yang dipimpin oleh Menlo Ventures.

Higgsfield

Kredit Gambar: Higgsfield

Untuk tetap selangkah lebih maju dari para pesaingnya, Higgsfield berencana untuk menggunakan dana awal untuk membangun editor video yang lebih baik yang memungkinkan pengguna memodifikasi karakter dan objek dalam video, dan untuk melatih model pembuatan video yang lebih kuat khususnya untuk kasus penggunaan media sosial. Faktanya, Mashrabov melihat media sosial — dan pemasaran media sosial — sebagai ceruk utama penghasil uang di Higgsfield.

Meskipun Diffuse saat ini gratis untuk digunakan, Mashrabov membayangkan masa depan di mana pemasar membayar sejumlah biaya atau langganan untuk fitur premium, atau untuk kampanye volume atau skala besar.

“Kami percaya Higgsfield membuka tingkat realisme dan kasus penggunaan produksi konten yang luar biasa bagi pemasar media sosial,” katanya. “Kami terus-menerus mendengar dari CMO dan direktur kreatif bahwa mereka perlu mengoptimalkan anggaran produksi konten dan mempersingkat jadwal sambil tetap memberikan konten yang berdampak. Jadi kami yakin solusi AI generatif video akan menjadi solusi inti dalam membantu mereka mencapai hal tersebut.”

Tentu saja, Higgsfield juga tidak kebal dari tantangan lebih luas yang dihadapi startup AI generatif.

Sudah diketahui bahwa model AI generatif seperti Diffuse yang mendukung dapat “memuntahkan” data pelatihan. Mengapa itu menjadi masalah? Nah, jika model tersebut dilatih tentang konten berhak cipta tanpa izin atau semacam perjanjian lisensi, pengguna model tersebut tanpa disadari dapat menghasilkan karya yang melanggar hak cipta — sehingga membuat mereka terkena tuntutan hukum.

Higgsfield

Kredit Gambar: Higgsfield

Mashrabov tidak akan mengungkapkan sumber data pelatihan Higgsfield (selain mengatakan bahwa data tersebut berasal dari “beberapa tempat yang tersedia untuk umum”), dan juga tidak akan mengatakan apakah Higgsfield akan menyimpan data pengguna untuk melatih model masa depan, yang mungkin tidak sesuai dengan beberapa model. pelanggan bisnis. Dia mencatat bahwa pengguna Diffuse dapat meminta agar data mereka dihapus kapan saja melalui aplikasi.

Platform “kloning” digital seperti Higgsfield juga rentan terhadap penyalahgunaan, seperti yang ditunjukkan oleh penyebaran deepfake di media sosial dalam beberapa bulan terakhir.

Dengan cara yang sama, Higgsfield dapat mempermudah pencurian konten pembuat konten. Misalnya, seseorang hanya perlu mengunggah video koreografi seseorang untuk menghasilkan video dirinya menampilkan koreografi yang sama.

Saya bertanya kepada Mashrabov tentang pengamanan atau perlindungan apa yang mungkin digunakan Higgsfield untuk mencegah penyalahgunaan, dan — meskipun dia tidak menjelaskan secara spesifik — dia mengklaim bahwa platform tersebut menggunakan kombinasi moderasi otomatis dan manual.

“Kami telah memutuskan untuk meluncurkan produk secara bertahap dan melakukan pengujian di pasar tertentu terlebih dahulu, sehingga kami dapat memantau potensi penyalahgunaan dan mengembangkan produk seperlunya,” tambah Mashrabov.

Kita harus menunggu dan melihat seberapa baik hal itu berhasil dalam praktiknya.

Sumber