Google menerapkan AI secara menyeluruh — dan Google ingin Anda mengetahuinya. Selama keynote perusahaan pada konferensi pengembang I/O pada hari Selasa, Google menyebutkan “AI” lebih dari 120 kali. Itu banyak!

Namun tidak semua pengumuman AI Google itu signifikan. Beberapa bersifat bertahap. Yang lainnya diulangi. Jadi untuk membantu memilah gandum dari sekam, kami mengumpulkan produk dan fitur AI baru teratas yang diluncurkan di Google I/O 2024.

Google berencana menggunakan AI generatif untuk mengatur seluruh halaman hasil Google Penelusuran.

Seperti apa tampilan halaman yang diatur oleh AI? Ya, itu tergantung pada permintaan pencarian. Namun mereka mungkin menampilkan ringkasan ulasan yang dihasilkan AI, diskusi dari situs media sosial seperti Reddit, dan daftar saran yang dihasilkan AI, kata Google.

Untuk saat ini, Google berencana menampilkan halaman hasil yang disempurnakan dengan AI saat mendeteksi pengguna sedang mencari inspirasi — misalnya, saat mereka merencanakan perjalanan. Nantinya, hasil ini juga akan ditampilkan saat pengguna menelusuri pilihan tempat makan dan resep, dengan hasil untuk film, buku, hotel, e-niaga, dan masih banyak lagi.

Proyek Astra dan Gemini Langsung

Kredit Gambar: Google / Google

Google sedang meningkatkan chatbot Gemini yang didukung AI sehingga dapat lebih memahami dunia di sekitarnya.

Perusahaan ini mempratinjau pengalaman baru di Gemini yang disebut Gemini Live, yang memungkinkan pengguna melakukan obrolan suara “mendalam” dengan Gemini di ponsel cerdas mereka. Pengguna dapat menyela Gemini saat chatbot sedang berbicara untuk mengajukan pertanyaan klarifikasi, dan itu akan beradaptasi dengan pola bicara mereka secara real time. Dan Gemini dapat melihat dan merespons lingkungan sekitar penggunanya, baik melalui foto maupun video yang diambil oleh kamera ponsel cerdasnya.

Gemini Live – yang baru akan diluncurkan akhir tahun ini – dapat menjawab pertanyaan tentang hal-hal yang terlihat (atau baru-baru ini terlihat) dari kamera ponsel pintar, seperti di lingkungan mana pengguna berada atau nama bagian dari sepeda yang rusak. Inovasi teknis yang mendorong Live sebagian berasal dari Project Astra, sebuah inisiatif baru dalam DeepMind untuk menciptakan aplikasi dan “agen” yang didukung AI untuk pemahaman multimodal secara real-time.

Google Saya Memata-matai

Jadi begitu
Kredit Gambar: Google

Google sedang mengincar Sora OpenAI dengan Veo, model AI yang dapat membuat klip video 1080p berdurasi sekitar satu menit dengan perintah teks.

Veo dapat menangkap gaya visual dan sinematik yang berbeda, termasuk bidikan lanskap dan selang waktu, serta melakukan pengeditan dan penyesuaian pada rekaman yang sudah dibuat. Model ini memahami pergerakan kamera dan VFX dengan cukup baik dari perintahnya (pikirkan deskripsi seperti “pan”, “zoom”, dan “ledakan”). Dan Veo memiliki sedikit pemahaman tentang fisika – hal-hal seperti dinamika fluida dan gravitasi – yang berkontribusi pada realisme video yang dihasilkannya.

Veo juga mendukung pengeditan bertopeng untuk perubahan pada area tertentu pada video dan dapat menghasilkan video dari gambar diam, ala model generatif seperti Video Stabil Stability AI. Mungkin yang paling menarik, mengingat serangkaian perintah yang menceritakan sebuah kisah, Veo dapat menghasilkan video yang lebih panjang — video yang berdurasi lebih dari satu menit.

Tanyakan Foto

Kredit Gambar: TechCrunch.dll

Google Foto mendapatkan infus AI dengan peluncuran fitur eksperimental, Ask Photos, yang didukung oleh model AI generatif keluarga Gemini Google.

Ask Photos, yang akan diluncurkan akhir musim panas ini, akan memungkinkan pengguna menelusuri seluruh koleksi Google Foto mereka menggunakan kueri bahasa alami yang memanfaatkan pemahaman Gemini tentang konten foto mereka — dan metadata lainnya.

Misalnya, daripada mencari sesuatu yang spesifik dalam sebuah foto, seperti “One World Trade,” pengguna akan dapat melakukan pencarian yang jauh lebih luas dan kompleks, seperti menemukan “foto terbaik dari setiap Taman Nasional yang saya kunjungi.” ” Dalam contoh tersebut, Gemini akan menggunakan sinyal termasuk pencahayaan, keburaman, dan kurangnya distorsi latar belakang untuk menentukan apa yang menjadikan sebuah foto “terbaik” dalam rangkaian tertentu dan menggabungkannya dengan pemahaman tentang info geolokasi dan tanggal untuk menghasilkan gambar yang relevan.

Gemini di Gmail

Kredit Gambar: TechCrunch.dll

Pengguna Gmail akan segera dapat menelusuri, meringkas, dan membuat draf email, atas izin Gemini — serta mengambil tindakan pada email untuk tugas yang lebih kompleks, seperti membantu proses pengembalian.

Dalam salah satu demo di I/O, Google menunjukkan bagaimana orang tua yang ingin mengetahui apa yang terjadi di sekolah anaknya dapat meminta Gemini untuk merangkum semua email terbaru dari sekolah. Selain isi email itu sendiri, Gemini juga akan menganalisis lampiran, seperti PDF, dan memberikan ringkasan berisi poin-poin penting dan item tindakan.

Dari sidebar di Gmail, pengguna dapat meminta Gemini untuk membantu mereka mengatur tanda terima dari email mereka dan bahkan memasukkannya ke dalam folder Google Drive, atau mengekstrak informasi dari tanda terima dan menempelkannya ke dalam spreadsheet. Jika itu adalah sesuatu yang sering Anda lakukan — misalnya, sebagai pelancong bisnis yang melacak pengeluaran — Gemini juga dapat menawarkan untuk mengotomatiskan alur kerja untuk digunakan di masa mendatang.

Mendeteksi penipuan selama panggilan

Google mempratinjau fitur bertenaga AI untuk mengingatkan pengguna akan potensi penipuan selama panggilan.

Kemampuan tersebut, yang akan dibangun pada versi Android masa depan, menggunakan Gemini Nano, versi terkecil dari penawaran AI generatif Google, yang dapat dijalankan sepenuhnya di perangkat, untuk mendengarkan “pola percakapan yang umumnya dikaitkan dengan penipuan” secara real time .

Tidak ada tanggal rilis spesifik yang ditetapkan untuk fitur ini. Seperti banyak hal lainnya, Google sedang meninjau seberapa banyak yang dapat dilakukan Gemini Nano suatu saat nanti. Namun, kami tahu bahwa fitur tersebut akan ikut serta — dan ini merupakan hal yang baik. Meskipun penggunaan Nano berarti sistem tidak akan secara otomatis mengunggah audio ke cloud, sistem masih mendengarkan percakapan pengguna secara efektif — yang merupakan potensi risiko privasi.

AI untuk aksesibilitas

Kredit Gambar: Google

Google meningkatkan fitur aksesibilitas TalkBack untuk Android dengan sedikit keajaiban AI generatif.

TalkBack akan segera memanfaatkan Gemini Nano untuk membuat deskripsi suara objek bagi pengguna dengan gangguan penglihatan dan tunanetra. Misalnya, TalkBack mungkin merujuk pada artikel pakaian sebagai, “Gambar close-up gaun motif kotak hitam putih. Gaunnya pendek dengan kerah dan lengan panjang. Diikat di pinggang dengan busur besar.”

Menurut Google, pengguna TalkBack menemukan sekitar 90 atau lebih gambar tanpa label setiap hari. Dengan menggunakan Nano, sistem akan dapat menawarkan wawasan tentang konten — sehingga berpotensi menghilangkan kebutuhan seseorang untuk memasukkan informasi tersebut secara manual.

Baca selengkapnya tentang Google I/O 2024 di TechCrunch

Sumber