Home Techno Tonton dan menangis (atau tersenyum): Avatar video AI Synthesia kini menampilkan emosi

Techno

Tonton dan menangis (atau tersenyum): Avatar video AI Synthesia kini menampilkan emosi

25 April 2024

AI Generatif telah menangkap imajinasi publik dengan lompatan dalam menciptakan teks dan gambar nyata yang rumit dan masuk akal berdasarkan perintah verbal. Namun hasil tangkapannya – dan sering kali ada tangkapan – adalah bahwa hasilnya sering kali jauh dari sempurna jika Anda melihat lebih dekat.

Orang-orang menunjukkan jari yang aneh, ubin lantai menyelinap pergi, dan Soal matematika tepatnya seperti itu: bermasalah, terkadang tidak sesuai.

Kini, Synthesia — salah satu startup AI ambisius yang bekerja di bidang video, khususnya avatar khusus yang dirancang bagi pengguna bisnis untuk membuat konten video promosi, pelatihan, dan perusahaan lainnya — merilis pembaruan yang diharapkan dapat membantunya mengatasi beberapa tantangan dalam industrinya. bidang tertentu. Versi terbarunya menampilkan avatar – dibuat berdasarkan manusia sebenarnya yang ditangkap di studio mereka – yang memberikan lebih banyak emosi, pelacakan bibir yang lebih baik, dan apa yang dikatakan sebagai gerakan alami dan manusiawi yang lebih ekspresif saat mereka diberi teks untuk menghasilkan video.

Peluncuran ini dilakukan setelah adanya kemajuan yang mengesankan bagi perusahaan hingga saat ini. Tidak seperti pemain AI generatif lainnya seperti OpenAI, yang telah membangun strategi dua arah — meningkatkan kesadaran publik dengan alat konsumen seperti ChatGPT sekaligus mengembangkan penawaran B2B, dengan API-nya yang digunakan oleh pengembang independen serta perusahaan raksasa — Synthesia condong ke arah yang lebih baik. ke dalam pendekatan yang diambil oleh beberapa startup AI terkemuka lainnya.

Mirip dengan fokus Perplexity dalam menyempurnakan penelusuran AI generatif, Synthesia juga berfokus pada cara membuat avatar video generatif yang paling mirip manusia. Lebih khusus lagi, mereka ingin melakukan hal ini hanya untuk pasar bisnis dan kasus penggunaan seperti pelatihan dan pemasaran.

Fokus tersebut telah membantu Synthesia menonjol di pasar AI yang sangat ramai dan berisiko menjadi komoditas ketika hype menjadi masalah jangka panjang seperti ARR, unit ekonomi, dan biaya operasional yang melekat pada implementasi AI.

Synthesia menggambarkan Avatar Ekspresif barunya, versi yang dirilis hari ini, sebagai yang pertama dari jenisnya: “Avatar pertama di dunia yang dihasilkan sepenuhnya dengan AI.” Dibangun berdasarkan model-model besar dan terlatih, Synthesia mengatakan terobosannya adalah bagaimana mereka digabungkan untuk mencapai distribusi multimoda yang lebih mirip dengan cara manusia berbicara.

Ini dihasilkan dengan cepat, kata Synthesia, yang dimaksudkan untuk lebih dekat dengan pengalaman yang kita alami ketika kita berbicara atau bereaksi dalam hidup, dan berbeda dengan cara kerja banyak alat video AI yang berbasis pada avatar saat ini: biasanya ini sebenarnya adalah banyak potongan video yang digabungkan dengan cepat untuk menciptakan respons wajah yang, kurang lebih, sejalan dengan skrip yang dimasukkan ke dalamnya. Tujuannya adalah untuk tampil tidak terlalu robotik, dan lebih hidup.

Versi sebelumnya:

Versi baru:

Seperti yang bisa Anda lihat pada dua contoh di sini, satu dari versi lama Synthesia dan satu lagi yang dirilis saat ini, masih ada jalan yang harus ditempuh dalam pengembangan, sesuatu yang juga diakui oleh CEO Victor Riparbelli.

“Tentu saja belum 100% tercapai, tapi akan segera tercapai, pada akhir tahun ini. Ini akan sangat mengejutkan,” katanya kepada TechCrunch. “Saya rasa Anda juga dapat melihat bahwa bagian AI dalam hal ini sangat halus. Pada manusia, terdapat begitu banyak informasi dalam detail terkecil, seperti gerakan otot wajah kita. Saya pikir kita tidak akan pernah bisa duduk dan menjelaskan, 'ya kamu tersenyum seperti ini ketika kamu bahagia tapi itu palsu kan?' Itu adalah hal yang rumit untuk dijelaskan pada manusia, tapi bisa saja terjadi [captured in] jaringan pembelajaran mendalam. Mereka benar-benar mampu mengetahui polanya dan kemudian menirunya dengan cara yang dapat diprediksi.” Hal berikutnya yang dikerjakannya, tambahnya, adalah tangan.

“Tangannya seperti, sangat keras,” tambahnya.

Fokus pada B2B juga membantu Synthesia lebih menekankan pesan dan produknya pada penggunaan AI yang “aman”. Hal ini penting terutama mengingat besarnya kekhawatiran saat ini terhadap deepfake dan penggunaan AI untuk tujuan jahat seperti misinformasi dan penipuan. Meski begitu, Synthesia belum berhasil menghindari kontroversi sama sekali. Seperti yang telah kami tunjukkan sebelumnya, teknologi Synthesia sebelumnya telah demikian hal-hal untuk menghasilkan propaganda di Venezuela dan PALSU laporan berita yang dipromosikan oleh akun media sosial pro-Tiongkok.

Perusahaan hari ini mencatat bahwa mereka telah mengambil langkah lebih lanjut untuk mencoba mengunci penggunaan tersebut. Bulan lalumereka memperbarui kebijakannya, katanya, “untuk membatasi jenis konten yang dapat dibuat oleh orang-orang, berinvestasi dalam deteksi dini pelaku yang beritikad buruk, meningkatkan tim yang bekerja pada keamanan AI, dan bereksperimen dengan teknologi kredensial konten seperti C2PA.”

Meskipun terdapat tantangan-tantangan tersebut, perusahaan terus berkembang.

Synthesia terakhir bernilai $1 miliar ketika mengumpulkan $90 juta. Khususnya, penggalangan dana itu dilakukan hampir setahun yang lalu, pada Juni 2023.

Riparbelli (gambar di atas, kanan, bersama pendiri lainnya Steffen Tjerrild, Profesor Lourdes Agapito, Profesor Matthias Niessner) mengatakan dalam sebuah wawancara awal bulan ini bahwa saat ini tidak ada rencana untuk menggalang dana lebih banyak, meskipun hal itu tidak benar-benar menjawab pertanyaan tentang apakah Synthesia didekati secara proaktif. (Catatan: kami sangat senang melihat manusia asli Riparbelli berbicara di acara kami di London pada bulan Mei, di mana saya pasti akan menanyakan hal ini lagi. Silakan datang jika Anda berada di kota.)

Yang kami tahu pasti adalah bahwa pembuatan dan pengoperasian AI membutuhkan banyak uang, dan Synthesia telah banyak membangun dan menjalankannya.

Sebelum peluncuran versi hari ini, sekitar 200.000 orang telah membuat lebih dari 18 juta presentasi video dalam 130 bahasa menggunakan 225 avatar lama Synthesia, kata perusahaan itu. (Tidak disebutkan berapa banyak pengguna pada tingkatan berbayar, namun ada banyak pelanggan ternama termasuk Zoom, BBC, DuPont, dan masih banyak lagi, dan perusahaan-perusahaan memang membayar.) Harapan dari startup ini, tentu saja, adalah bahwa dengan diluncurkannya versi baru hari ini, jumlah tersebut akan semakin meningkat.

Sumber

RELATED ARTICLESMORE FROM AUTHOR

Google memberhentikan pekerja, Tesla menghentikan tim Superchargernya, dan UnitedHealthcare mengungkapkan kelemahan keamanan

Pengomposan manusia dan pasar kayu: berbincang dengan investor “industri” dengan investor Dayna Grayson

Perempuan dalam AI: Tara Chklovski mengajar generasi inovator AI berikutnya

RELATED ARTICLES MORE FROM AUTHOR