Google mencoba membuat terobosan dengan Gemini, rangkaian model, aplikasi, dan layanan AI generatif andalannya.

Jadi apa itu Gemini? Bagaimana Anda bisa menggunakannya? Dan bagaimana cara agar bisa bersaing?

Untuk mempermudah mengikuti perkembangan terbaru Gemini, kami telah menyusun panduan praktis ini, yang akan terus kami perbarui saat model, fitur, dan berita Gemini baru tentang rencana Google untuk Gemini dirilis.

Apa itu Gemini?

Gemini adalah milik Google sudah lama dijanjikan, keluarga model GenAI generasi berikutnya, yang dikembangkan oleh laboratorium penelitian AI Google, DeepMind dan Google Research. Itu datang dalam tiga rasa:

  • Gemini Ultramodel Gemini paling berkinerja.
  • Gemini Promodel Gemini yang “ringan”.
  • Gemini Nanomodel “sulingan” lebih kecil yang berjalan di perangkat seluler seperti Pixel 8 Pro.

Semua model Gemini dilatih untuk menjadi “multimodal asli” – dengan kata lain, mampu bekerja dengan dan menggunakan lebih dari sekedar kata-kata. Mereka telah dilatih sebelumnya dan disempurnakan dalam berbagai audio, gambar, dan video, sejumlah besar basis kode, dan teks dalam berbagai bahasa.

Hal ini membedakan Gemini dari model seperti LaMDA milik Google, yang dilatih secara eksklusif pada data teks. LaMDA tidak dapat memahami atau menghasilkan apa pun selain teks (misalnya esai, draf email), tetapi tidak demikian halnya dengan model Gemini.

Apa perbedaan antara aplikasi Gemini dan model Gemini?

Kredit Gambar: Google

Google, yang sekali lagi membuktikan bahwa mereka kurang berbakat dalam hal branding, tidak menjelaskan sejak awal bahwa Gemini terpisah dan berbeda dari aplikasi Gemini di web dan seluler (sebelumnya Bard). Aplikasi Gemini hanyalah sebuah antarmuka yang melaluinya model Gemini tertentu dapat diakses — anggap saja sebagai klien untuk GenAI Google.

Kebetulan, aplikasi dan model Gemini juga sepenuhnya independen dari Imagen 2, model teks-ke-gambar Google yang tersedia di beberapa alat dan lingkungan pengembangan perusahaan.

Apa yang bisa dilakukan Gemini?

Karena model Gemini bersifat multimodal, secara teori mereka dapat melakukan berbagai tugas multimodal, mulai dari menyalin ucapan, memberi teks pada gambar dan video, hingga menghasilkan karya seni. Beberapa dari kemampuan ini telah mencapai tahap produk (lebih lanjut tentang itu nanti), dan Google menjanjikan semuanya — dan lebih banyak lagi — pada suatu saat dalam waktu yang tidak terlalu lama lagi.

Tentu saja, agak sulit untuk mempercayai kata-kata perusahaan.

Google benar-benar kurang terlayani dengan peluncuran Bard yang asli. Dan baru-baru ini mereka membuat heboh dengan sebuah video yang dimaksudkan untuk menunjukkan kemampuan Gemini yang ternyata telah banyak direkayasa dan kurang lebih aspiratif.

Namun, dengan asumsi Google kurang lebih jujur ​​dengan klaimnya, inilah yang dapat dilakukan oleh berbagai tingkatan Gemini setelah mereka mencapai potensi penuhnya:

Gemini Ultra

Google mengatakan bahwa Gemini Ultra – berkat multimodalitasnya – dapat digunakan untuk membantu hal-hal seperti pekerjaan rumah fisika, menyelesaikan masalah selangkah demi selangkah di lembar kerja, dan menunjukkan kemungkinan kesalahan dalam jawaban yang sudah diisi.

Gemini Ultra juga dapat diterapkan pada tugas-tugas seperti mengidentifikasi makalah ilmiah yang relevan dengan masalah tertentu, kata Google – mengekstraksi informasi dari makalah tersebut dan “memperbarui” bagan dari satu makalah dengan menghasilkan rumus yang diperlukan untuk membuat ulang bagan dengan data yang lebih baru. .

Gemini Ultra secara teknis mendukung pembuatan gambar, seperti yang telah disinggung sebelumnya. Namun kemampuan tersebut belum diterapkan pada versi produksi model tersebut — mungkin karena mekanismenya lebih kompleks dibandingkan cara aplikasi seperti ChatGPT menghasilkan gambar. Daripada memberikan perintah ke generator gambar (seperti DALL-E 3, dalam kasus ChatGPT), Gemini mengeluarkan gambar “secara asli”, tanpa langkah perantara.

Gemini Ultra tersedia sebagai API melalui Vertex AI, platform pengembang AI yang dikelola sepenuhnya oleh Google, dan AI Studio, alat berbasis web Google untuk pengembang aplikasi dan platform. Ini juga mendukung aplikasi Gemini — tetapi tidak gratis. Akses ke Gemini Ultra melalui apa yang disebut Google Gemini Advanced memerlukan berlangganan Paket Premium Google One AI, dengan harga $20 per bulan.

Paket AI Premium juga menghubungkan Gemini ke akun Google Workspace Anda yang lebih luas — misalnya email di Gmail, dokumen di Dokumen, presentasi di Spreadsheet, dan rekaman Google Meet. Ini berguna, misalnya, untuk meringkas email atau meminta Gemini membuat catatan selama panggilan video.

Gemini Pro

Google mengatakan bahwa Gemini Pro merupakan peningkatan dari LaMDA dalam kemampuan penalaran, perencanaan, dan pemahamannya.

Seorang yang mandiri belajar oleh Carnegie Mellon dan peneliti BerriAI menemukan bahwa versi awal Gemini Pro memang lebih baik daripada OpenAI GPT-3.5 dalam menangani rantai penalaran yang lebih panjang dan kompleks. Namun penelitian ini juga menemukan bahwa, seperti semua model bahasa besar, versi Gemini Pro ini khususnya berjuang dengan masalah matematika yang melibatkan beberapa digit, dan pengguna menemukan contoh penalaran yang buruk dan kesalahan yang jelas terlihat.

Google menjanjikan solusinya – dan yang pertama hadir dalam bentuk Gemini 1.5 Pro.

Didesain sebagai pengganti drop-in, Gemini 1.5 Pro ditingkatkan dalam beberapa aspek dibandingkan pendahulunya, mungkin yang paling signifikan adalah jumlah data yang dapat diproses. Gemini 1.5 Pro dapat menampung ~700.000 kata, atau ~30.000 baris kode — 35x jumlah yang dapat ditangani Gemini 1.0 Pro. Dan — modelnya multimodal — tidak terbatas pada teks. Gemini 1.5 Pro dapat menganalisis audio hingga 11 jam atau satu jam video dalam berbagai bahasa berbeda, meskipun lambat (misalnya, mencari adegan dalam video berdurasi satu jam memerlukan pemrosesan 30 detik hingga satu menit).

Gemini 1.5 Pro memasuki pratinjau publik di Vertex AI pada bulan April.

Titik akhir tambahan, Gemini Pro Vision, dapat memproses teks Dan citra — termasuk foto dan video — dan teks keluaran yang serupa dengan model GPT-4 OpenAI dengan Vision.

Gemini

Menggunakan Gemini Pro di Vertex AI. Kredit Gambar: Gemini

Dalam Vertex AI, pengembang dapat menyesuaikan Gemini Pro dengan konteks dan kasus penggunaan tertentu menggunakan proses penyesuaian atau “pembumian”. Gemini Pro juga dapat dihubungkan ke API pihak ketiga eksternal untuk melakukan tindakan tertentu.

Di AI Studio, terdapat alur kerja untuk membuat perintah obrolan terstruktur menggunakan Gemini Pro. Pengembang memiliki akses ke titik akhir Gemini Pro dan Gemini Pro Vision, dan mereka dapat menyesuaikan suhu model untuk mengontrol rentang materi iklan keluaran dan memberikan contoh untuk memberikan petunjuk nada dan gaya — dan juga menyesuaikan pengaturan keselamatan.

Gemini Nano

Gemini Nano adalah versi yang jauh lebih kecil dari model Gemini Pro dan Ultra, dan cukup efisien untuk dijalankan langsung di (beberapa) ponsel daripada mengirimkan tugas ke server di suatu tempat. Sejauh ini, ini mendukung beberapa fitur pada Pixel 8 Pro, Pixel 8, dan Samsung Galaxy S24, termasuk Summarize in Recorder dan Smart Reply di Gboard.

Aplikasi Perekam, yang memungkinkan pengguna menekan tombol untuk merekam dan menyalin audio, menyertakan ringkasan rekaman percakapan, wawancara, presentasi, dan cuplikan lainnya yang didukung Gemini. Pengguna mendapatkan ringkasan ini meskipun mereka tidak memiliki sinyal atau koneksi Wi-Fi — dan demi menjaga privasi, tidak ada data yang keluar dari ponsel mereka selama proses tersebut.

Gemini Nano juga ada di Gboard, aplikasi keyboard Google. Di sana, ia mendukung fitur yang disebut Smart Reply, yang membantu menyarankan hal berikutnya yang ingin Anda katakan saat melakukan percakapan di aplikasi perpesanan. Fitur ini awalnya hanya berfungsi dengan WhatsApp tetapi akan hadir di lebih banyak aplikasi seiring berjalannya waktu, kata Google.

Dan di aplikasi Google Message pada perangkat yang didukung, Nano mengaktifkan Magic Compose, yang dapat menyusun pesan dalam gaya seperti “bersemangat”, “formal”, dan “liris”.

Apakah Gemini lebih baik daripada GPT-4 OpenAI?

Google telah beberapa kali dipuji Keunggulan Gemini dalam tolok ukur, mengklaim bahwa Gemini Ultra melampaui hasil terkini pada “30 dari 32 tolok ukur akademis yang banyak digunakan dalam penelitian dan pengembangan model bahasa besar.” Perusahaan mengatakan bahwa Gemini 1.5 Pro, sementara itu, lebih mampu melakukan tugas-tugas seperti merangkum konten, bertukar pikiran, dan menulis daripada Gemini Ultra dalam beberapa skenario; Agaknya hal ini akan berubah dengan dirilisnya model Ultra berikutnya.

Namun terlepas dari pertanyaan apakah benchmark benar-benar menunjukkan model yang lebih baik, skor yang ditunjukkan Google tampaknya hanya sedikit lebih baik dibandingkan model OpenAI yang serupa. Dan — seperti yang disebutkan sebelumnya — beberapa kesan awal tidak terlalu bagus, baik bagi pengguna maupun pengguna akademisi menunjukkan bahwa versi lama Gemini Pro cenderung salah memahami fakta dasar, kesulitan dalam menerjemahkan, dan memberikan saran pengkodean yang buruk.

Berapa harga Gemini?

Gemini 1.5 Pro gratis untuk digunakan di aplikasi Gemini dan, untuk saat ini, AI Studio dan Vertex AI.

Namun, setelah Gemini 1.5 Pro keluar dari pratinjau di Vertex, model tersebut akan dikenakan biaya $0,0025 per karakter sedangkan output akan dikenakan biaya $0,00005 per karakter. Pelanggan Vertex membayar per 1.000 karakter (sekitar 140 hingga 250 kata) dan, dalam kasus model seperti Gemini Pro Vision, per gambar ($0,0025).

Misalkan artikel 500 kata berisi 2.000 karakter. Ringkasnya, artikel dengan Gemini 1.5 Pro akan berharga $5. Sementara itu, membuat artikel dengan panjang yang sama akan menelan biaya $0,1.

Harga ultra belum diumumkan.

Di mana Anda bisa mencoba Gemini?

Gemini Pro

Tempat termudah untuk merasakan Gemini Pro adalah di aplikasi Gemini. Pro dan Ultra menjawab pertanyaan dalam berbagai bahasa.

Gemini Pro dan Ultra juga dapat diakses dalam pratinjau di Vertex AI melalui API. API ini bebas digunakan “dalam batas tertentu” untuk saat ini dan mendukung wilayah tertentu, termasuk Eropa, serta fitur seperti fungsi obrolan dan pemfilteran.

Di tempat lain, Gemini Pro dan Ultra dapat ditemukan di AI Studio. Dengan menggunakan layanan ini, pengembang dapat mengulangi perintah dan chatbot berbasis Gemini lalu mendapatkan kunci API untuk digunakan dalam aplikasi mereka — atau mengekspor kode ke IDE yang berfitur lebih lengkap.

Bantuan Kode (sebelumnya Duet AI untuk Pengembang), rangkaian alat bantuan bertenaga AI milik Google untuk penyelesaian dan pembuatan kode, menggunakan model Gemini. Pengembang dapat melakukan perubahan “skala besar” di seluruh basis kode, misalnya memperbarui dependensi lintas file dan meninjau sejumlah besar kode.

Google menghadirkan model Gemini ke alat pengembangannya untuk platform pengembangan seluler Chrome dan Firebase, serta alat pembuatan dan pengelolaan basis datanya. Dan mereka meluncurkan produk keamanan baru yang didukung oleh Gemini, seperti Gemini di Threat Intelligence, sebuah komponen platform keamanan siber Mandiant Google yang dapat menganalisis sebagian besar kode yang berpotensi berbahaya dan memungkinkan pengguna melakukan penelusuran bahasa alami untuk mencari ancaman yang sedang berlangsung atau indikator penyusupan.

Sumber