Home Techno Adobe mengklaim model pembuatan gambar barunya adalah yang terbaik

Techno

Adobe mengklaim model pembuatan gambar barunya adalah yang terbaik

23 April 2024

Firefly, rangkaian model AI generatif Adobe, tidak memiliki reputasi terbaik di kalangan kreatif.

Model pembuatan gambar Firefly khususnya telah dicemooh sebagai mengecewakan Dan cacat dibandingkan dengan Midjourney, DALL-E 3 OpenAI, dan pesaing lainnya, dengan kecenderungan untuk mendistorsi anggota badan dan lanskap serta kehilangan nuansa dalam petunjuknya. Namun Adobe sedang mencoba memperbaikinya dengan model generasi ketiganya, Firefly Image 3, yang dirilis minggu ini pada konferensi perusahaan Max London.

Model ini, sekarang tersedia dalam Photoshop (beta) dan aplikasi web Firefly Adobe, menghasilkan citra yang lebih “realistis” dibandingkan pendahulunya (Gambar 2) dan pendahulunya (Gambar 1) berkat kemampuan untuk memahami petunjuk dan adegan yang lebih panjang dan kompleks serta peningkatan kemampuan pencahayaan dan pembuatan teks. Ini harus lebih akurat dalam menampilkan hal-hal seperti tipografi, ikonografi, gambar raster, dan seni garis, kata Adobe, dan “secara signifikan” lebih mahir dalam menggambarkan kerumunan orang dan orang-orang dengan “fitur detail” dan “berbagai suasana hati dan ekspresi.”

Untuk apa nilainya, dalam pengujian singkat saya yang tidak ilmiah, Gambar 3 melakukan tampaknya merupakan langkah maju dari Gambar 2.

Saya sendiri tidak dapat mencoba Gambar 3. Namun Adobe PR mengirimkan beberapa keluaran dan perintah dari model tersebut, dan saya berhasil menjalankan perintah yang sama melalui Gambar 2 di web untuk mendapatkan sampel untuk membandingkan keluaran Gambar 3. (Perlu diingat bahwa keluaran Gambar 3 bisa saja dipilih secara khusus.)

Perhatikan pencahayaan pada foto kepala ini dari Gambar 3 dibandingkan dengan yang di bawahnya, dari Gambar 2:

Dari Gambar 3. Prompt: “Potret studio wanita muda.”

Prompt yang sama seperti di atas, dari Gambar 2.

Output Gambar 3 terlihat lebih detail dan nyata di mata saya, dengan bayangan dan kontras yang sebagian besar tidak ada pada sampel Gambar 2.

Berikut kumpulan gambar yang menunjukkan pemahaman adegan Gambar 3 yang sedang dimainkan:

Dari Gambar 3. Prompt: “Seorang seniman di studionya duduk di depan meja tampak termenung dengan banyak lukisan dan halus.”

Perintah yang sama seperti di atas. Dari Gambar 2.

Perhatikan bahwa sampel Gambar 2 cukup mendasar dibandingkan dengan keluaran dari Gambar 3 dalam hal tingkat detail — dan ekspresi keseluruhan. Terdapat kecondongan yang terjadi pada subjek yang mengenakan kemeja sampel Gambar 3 (di sekitar area pinggang), namun posenya lebih rumit dibandingkan subjek pada Gambar 2. (Dan pakaian pada Gambar 2 juga sedikit lepas.)

Beberapa perbaikan pada Gambar 3 tidak diragukan lagi dapat ditelusuri ke kumpulan data pelatihan yang lebih besar dan lebih beragam.

Seperti Gambar 2 dan Gambar 1, Gambar 3 dilatih untuk diunggah ke Adobe Stock, perpustakaan media bebas royalti Adobe, bersama dengan konten berlisensi dan domain publik yang hak ciptanya telah habis masa berlakunya. Adobe Stock terus berkembang, begitu pula kumpulan data pelatihan yang tersedia.

Dalam upaya untuk menghindari tuntutan hukum dan memposisikan dirinya sebagai alternatif yang lebih “etis” terhadap vendor AI generatif yang melatih gambar tanpa pandang bulu (misalnya OpenAI, Midjourney), Adobe memiliki program untuk membayar kontributor Adobe Stock pada kumpulan data pelatihan. (Namun, kami perhatikan bahwa persyaratan programnya agak kabur.) Secara kontroversial, Adobe juga melatih model Firefly pada gambar yang dihasilkan AI, yang oleh sebagian orang dianggap sebagai bentuk pencucian data.

Bloomberg terbaru pelaporan mengungkapkan gambar yang dihasilkan AI di Adobe Stock tidak dikecualikan dari data pelatihan model penghasil gambar Firefly, sebuah prospek yang meresahkan mengingat gambar tersebut mungkin mengandung memuntahkan materi berhak cipta. Adobe telah membela praktik tersebut, mengklaim bahwa gambar yang dihasilkan AI hanya merupakan sebagian kecil dari data pelatihannya dan melalui proses moderasi untuk memastikan gambar tersebut tidak menggambarkan merek dagang atau karakter yang dapat dikenali atau nama artis referensi.

Tentu saja, tidak ada data pelatihan yang beragam dan bersumber lebih “etis”, maupun filter konten dan perlindungan lainnya yang menjamin pengalaman yang benar-benar bebas dari cacat — lihatlah pengguna menghasilkan orang membalik burung itu dengan Gambar 2. Ujian sesungguhnya dari Gambar 3 akan terjadi setelah komunitas dapat memperolehnya.

Fitur baru yang didukung AI

Image 3 mendukung beberapa fitur baru di Photoshop selain peningkatan teks-ke-gambar.

“Mesin gaya” baru di Gambar 3, bersama dengan tombol penyesuaian gaya otomatis baru, memungkinkan model menghasilkan rangkaian warna, latar belakang, dan pose subjek yang lebih luas. Mereka dimasukkan ke dalam Gambar Referensi, sebuah opsi yang memungkinkan pengguna mengkondisikan model pada gambar yang warna atau nadanya ingin diselaraskan dengan konten yang dihasilkan di masa mendatang.

Tiga alat generatif baru — Hasilkan Latar Belakang, Hasilkan Serupa, dan Tingkatkan Detail — memanfaatkan Gambar 3 untuk melakukan pengeditan presisi pada gambar. Generate Background (deskriptif mandiri) menggantikan latar belakang dengan latar belakang yang dihasilkan yang menyatu dengan gambar yang ada, sedangkan Generate Same menawarkan variasi pada bagian foto yang dipilih (misalnya seseorang atau objek). Sedangkan untuk Enhance Detail, ini “menyempurnakan” gambar untuk meningkatkan ketajaman dan kejernihan.

Jika fitur-fitur ini terdengar familier, itu karena fitur-fitur tersebut telah berada dalam versi beta di aplikasi web Firefly selama setidaknya satu bulan (dan Midjourney lebih lama dari itu). Ini menandai debut Photoshop mereka — dalam versi beta.

Berbicara tentang aplikasi web, Adobe tidak mengabaikan jalur alternatif ke alat AI-nya.

Bertepatan dengan peluncuran Gambar 3, aplikasi web Firefly mendapatkan Referensi Struktur dan Referensi Gaya, yang oleh Adobe disebut-sebut sebagai cara baru untuk “meningkatkan kontrol materi iklan.” (Keduanya diumumkan pada bulan Maret, namun kini sudah tersedia secara luas.) Dengan Referensi Struktur, pengguna dapat menghasilkan gambar baru yang cocok dengan “struktur” gambar referensi — misalnya, tampilan langsung mobil balap. Referensi Gaya pada dasarnya adalah transfer gaya dengan nama lain, melestarikan konten gambar (misalnya gajah di Safari Afrika) sambil meniru gaya (misalnya sketsa pensil) dari gambar target.

Inilah Referensi Struktur yang sedang beraksi:

Gambar asli.

Ditransformasikan dengan Referensi Struktur.

Dan Referensi Gaya:

Gambar asli.

Ditransformasikan dengan Referensi Gaya.

Saya bertanya kepada Adobe apakah, dengan semua peningkatan tersebut, harga pembuatan gambar Firefly akan berubah. Saat ini, paket premium Firefly termurah adalah $4,99 per bulan — meremehkan persaingan seperti Midjourney ($10 per bulan) dan OpenAI (yang menjadikan DALL-E 3 di belakang langganan ChatGPT Plus $20 per bulan).

Adobe mengatakan bahwa tingkatannya saat ini akan tetap berlaku untuk saat ini, begitu juga dengan tingkatannya sistem kredit generatif. Ia juga mengatakan bahwa kebijakan ganti ruginya, yang menyatakan bahwa Adobe akan membayar klaim hak cipta terkait dengan karya yang dihasilkan di Firefly, juga tidak akan berubah, begitu pula pendekatannya terhadap pemberian watermark pada konten yang dihasilkan AI. Kredensial Konten — metadata untuk mengidentifikasi media yang dihasilkan AI — akan terus dilampirkan secara otomatis ke semua generasi gambar Firefly di web dan di Photoshop, baik dibuat dari awal atau diedit sebagian menggunakan fitur generatif.

Sumber

Fitur baru yang didukung AI

RELATED ARTICLESMORE FROM AUTHOR

A comprehensive list of 2024 tech layoffs

Luminar memangkas 20% staf dan melakukan outsourcing produksi lidar

Iconiq mengumpulkan $5,15 miliar untuk dana unggulan ketujuh

RELATED ARTICLES MORE FROM AUTHOR