Beberapa perusahaan kecerdasan buatan menghindari standar web umum yang digunakan oleh penerbit untuk memblokir pengambilan konten mereka untuk digunakan dalam sistem AI generatif, kata startup lisensi konten TollBit kepada penerbit.

Sebuah surat kepada penerbit yang dilihat oleh Reuters pada hari Jumat, yang tidak menyebutkan nama perusahaan AI atau penerbit yang terkena dampak, muncul di tengah perselisihan publik antara startup pencarian AI Perplexity dan outlet media Forbes yang melibatkan standar web yang sama dan perdebatan yang lebih luas antara perusahaan teknologi dan media. atas nilai konten di era AI generatif.

Penerbit media bisnis tersebut secara terbuka menuduh Perplexity menjiplak cerita investigasinya dalam ringkasan yang dibuat oleh AI tanpa mengutip Forbes atau meminta izinnya.

Investigasi Wired yang diterbitkan minggu ini menemukan bahwa Perplexity kemungkinan mengabaikan upaya untuk memblokir perayap webnya melalui Protokol Pengecualian Robot, atau “robots.txt,” sebuah standar yang diterima secara luas yang dimaksudkan untuk menentukan bagian mana dari sebuah situs yang boleh dirayapi.

Kebingungan menolak permintaan Reuters untuk mengomentari perselisihan tersebut.

Penawaran meriah

News Media Alliance, sebuah kelompok perdagangan yang mewakili lebih dari 2.200 penerbit yang berbasis di AS, menyatakan keprihatinan tentang dampak mengabaikan sinyal “jangan merayapi” terhadap anggotanya.

“Tanpa kemampuan untuk tidak ikut serta dalam pengumpulan informasi secara besar-besaran, kami tidak dapat memonetisasi konten kami yang berharga dan membayar jurnalis. Hal ini dapat sangat merugikan industri kita,” kata Danielle Coffey, presiden kelompok tersebut.

TollBit, sebuah startup tahap awal, memposisikan dirinya sebagai pencari jodoh antara perusahaan AI yang haus konten dan penerbit yang bersedia melakukan kesepakatan lisensi dengan mereka.

Perusahaan melacak lalu lintas AI ke situs web penerbit dan menggunakan analitik untuk membantu kedua belah pihak menentukan biaya yang harus dibayar untuk penggunaan berbagai jenis konten.

Misalnya, penerbit dapat memilih untuk menetapkan tarif lebih tinggi untuk “konten premium, seperti berita terbaru atau wawasan eksklusif,” kata perusahaan itu di situs webnya.

Dikatakan bahwa mereka memiliki 50 situs web yang aktif pada bulan Mei, meskipun mereka belum menyebutkan nama situs tersebut.

Menurut surat TollBit, Perplexity bukan satu-satunya pelaku yang tampaknya mengabaikan robots.txt.

TollBit mengatakan analisisnya menunjukkan “banyak” agen AI yang melewati protokol, alat standar yang digunakan oleh penerbit untuk menunjukkan bagian mana dari situsnya yang dapat dirayapi.

“Artinya secara praktis adalah bahwa agen AI dari berbagai sumber (bukan hanya satu perusahaan) memilih untuk melewati protokol robots.txt untuk mengambil konten dari situs,” tulis TollBit. “Semakin banyak log penerbit yang kami serap, semakin banyak pula pola ini muncul.”

Protokol robots.txt dibuat pada pertengahan tahun 1990-an sebagai cara untuk menghindari kelebihan beban situs web dengan perayap web. Meskipun tidak ada mekanisme penegakan hukum yang jelas, secara historis terdapat kepatuhan yang luas di web dan beberapa kelompok – termasuk News Media Alliance – mengatakan mungkin masih ada bantuan hukum bagi penerbit.

Baru-baru ini, robots.txt telah menjadi alat utama yang digunakan penerbit untuk memblokir perusahaan teknologi agar tidak menyerap konten mereka secara gratis untuk digunakan dalam sistem AI generatif yang dapat meniru kreativitas manusia dan meringkas artikel secara instan.

Perusahaan AI menggunakan konten tersebut untuk melatih algoritme mereka dan menghasilkan ringkasan informasi real-time.

Beberapa penerbit, termasuk New York Times, telah menggugat perusahaan AI atas pelanggaran hak cipta atas penggunaan tersebut. Yang lain menandatangani perjanjian lisensi dengan perusahaan AI yang bersedia membayar konten, meskipun kedua pihak sering kali tidak sepakat mengenai nilai materi tersebut. Banyak pengembang AI berpendapat bahwa mereka tidak melanggar hukum dalam mengaksesnya secara gratis.

Thomson Reuters, pemilik Reuters News, termasuk di antara mereka yang telah mencapai kesepakatan untuk melisensikan konten berita untuk digunakan oleh model AI.

Penerbit telah meningkatkan kewaspadaan khususnya terhadap ringkasan berita sejak Google meluncurkan produk tahun lalu yang menggunakan AI untuk membuat ringkasan sebagai respons terhadap beberapa permintaan pencarian.

Jika penerbit ingin mencegah konten mereka digunakan oleh AI Google untuk membantu menghasilkan ringkasan tersebut, mereka harus menggunakan alat yang sama yang juga akan mencegah konten mereka muncul di hasil penelusuran Google, sehingga membuat ringkasan tersebut hampir tidak terlihat di web.



Sumber