Alat pembuatan video OpenAI, Sora, mengejutkan komunitas AI pada bulan Februari dengan video yang lancar dan realistis yang tampak jauh lebih maju dari para pesaing. Namun debut yang dikelola dengan hati-hati meninggalkan banyak detail — detail yang telah diisi oleh pembuat film yang diberi akses awal untuk membuat film pendek menggunakan Sora.

Shy Kids adalah tim produksi digital yang berbasis di Toronto yang dipilih oleh OpenAI sebagai salah satu dari sedikit tim produksi untuk memproduksi film pendek pada dasarnya untuk tujuan promosi OpenAI, meskipun mereka diberi kebebasan berkreasi yang cukup besar dalam menciptakan “kepala udara.” Dalam sebuah wawancara dengan outlet berita efek visual fxguideseniman pasca produksi Patrick Cederberg menggambarkan “sebenarnya menggunakan Sora” sebagai bagian dari karyanya.

Mungkin hal yang paling penting bagi sebagian besar orang adalah ini: Meskipun postingan OpenAI yang menyoroti film pendek tersebut membuat pembaca berasumsi bahwa film tersebut kurang lebih muncul sepenuhnya dari Sora, kenyataannya adalah bahwa ini adalah produksi profesional, lengkap dengan storyboard, pengeditan, koreksi warna yang kuat, dan pasca pekerjaan seperti rotoscoping dan VFX. Sama seperti Apple mengatakan “bidik di iPhone” tetapi tidak menunjukkan pengaturan studio, pencahayaan profesional, dan pekerjaan warna, postingan Sora hanya berbicara tentang apa yang memungkinkan orang melakukannya, bukan bagaimana mereka sebenarnya melakukannya.

Wawancara Cederberg menarik dan non-teknis, jadi jika Anda tertarik, buka fxguide dan bacalah. Namun berikut adalah beberapa hal menarik tentang penggunaan Sora yang memberi tahu kita bahwa, meskipun mengesankan, model ini mungkin bukanlah sebuah lompatan besar dibandingkan yang kita duga.

Pengendalian masih menjadi hal yang paling diinginkan dan juga paling sulit dipahami saat ini. … Hal terdekat yang bisa kami dapatkan hanyalah bersikap hiper-deskriptif dalam petunjuk kami. Menjelaskan susunan karakter, serta jenis balon, adalah cara kami mengatasi konsistensi karena dari pengambilan gambar / generasi ke generasi, belum ada fitur yang ditetapkan untuk kontrol penuh atas konsistensi.

Dengan kata lain, hal-hal yang sederhana dalam pembuatan film tradisional, seperti pemilihan warna pakaian karakter, mengambil solusi rumit dan pemeriksaan dalam sistem generatif, karena setiap pengambilan gambar dibuat secara independen satu sama lain. Hal ini jelas bisa berubah, namun saat ini hal tersebut jauh lebih sulit.

Keluaran Sora juga harus diperhatikan terhadap elemen yang tidak diinginkan: Cederberg menjelaskan bagaimana model secara rutin menghasilkan wajah pada balon yang kepalanya dimiliki karakter utama, atau tali yang menggantung di bagian depan. Ini harus dihapus di pos, proses lain yang memakan waktu, jika mereka tidak mendapatkan perintah untuk mengecualikannya.

Pengaturan waktu dan pergerakan karakter atau kamera yang tepat tidak mungkin dilakukan: “Ada sedikit kontrol temporal tentang di mana tindakan-tindakan berbeda ini terjadi pada generasi sebenarnya, tetapi ini tidak tepat… ini semacam pengambilan gambar dalam kegelapan,” kata Cederberg.

Misalnya, menentukan waktu gerakan seperti lambaikan tangan adalah proses yang sangat mendekati dan didorong oleh saran, tidak seperti animasi manual. Dan bidikan seperti pan ke atas pada tubuh karakter mungkin mencerminkan atau tidak mencerminkan apa yang diinginkan pembuat film — jadi tim dalam hal ini membuat bidikan yang disusun dalam orientasi potret dan melakukan crop pan di pos. Klip yang dihasilkan juga sering kali bergerak lambat tanpa alasan tertentu.

Contoh shot yang keluar dari Sora dan bagaimana hasilnya di short. Kredit Gambar: Anak-anak Pemalu

Faktanya, penggunaan bahasa sehari-hari dalam pembuatan film, seperti “panning right” atau “tracking shot” secara umum tidak konsisten, kata Cederberg, yang menurut tim cukup mengejutkan.

“Para peneliti, sebelum mendekati seniman untuk bermain dengan alat tersebut, belum benar-benar berpikir seperti pembuat film,” katanya.

Hasilnya, tim melakukan ratusan generasi, masing-masing 10 hingga 20 detik, dan akhirnya hanya menggunakan segelintir generasi. Cederberg memperkirakan rasionya adalah 300:1 — namun tentu saja kita semua mungkin akan terkejut dengan rasio pada pengambilan gambar biasa.

Tim sebenarnya membuat sedikit video di balik layar menjelaskan beberapa masalah yang mereka hadapi, jika Anda penasaran. Seperti kebanyakan konten yang berhubungan dengan AI, komentarnya cukup kritis terhadap keseluruhan upaya — meskipun tidak terlalu menghina seperti iklan berbantuan AI yang kita lihat dipermalukan baru-baru ini.

Masalah menarik terakhir berkaitan dengan hak cipta: Jika Anda meminta Sora memberi Anda klip “Star Wars”, ia akan menolak. Dan jika Anda mencoba menyiasatinya dengan “pria berjubah dengan pedang laser di pesawat ruang angkasa retro-futuristik”, ia juga akan menolak, karena melalui mekanisme tertentu ia mengenali apa yang Anda coba lakukan. Ia juga menolak untuk melakukan “pemotretan tipe Aronofsky” atau “zoom Hitchcock.”

Di satu sisi, ini sangat masuk akal. Namun hal ini menimbulkan pertanyaan: Jika Sora mengetahui hal-hal tersebut, apakah itu berarti model telah dilatih tentang konten tersebut, sehingga lebih baik untuk mengenali bahwa konten tersebut melanggar? OpenAI, yang menyimpan kartu data pelatihannya begitu saja — sampai pada titik yang tidak masuk akal Wawancara CTO Mira Murati dengan Joanna Stern — hampir pasti tidak akan pernah memberi tahu kita.

Adapun Sora dan penggunaannya dalam pembuatan film, jelas merupakan alat yang ampuh dan berguna, namun tempatnya bukanlah “membuat film dari keseluruhan kain.” Belum. Seperti yang pernah dikatakan oleh penjahat terkenal lainnya, “itu akan terjadi nanti”.



Sumber