Cloudflare, penyedia layanan cloud yang diperdagangkan secara publik, telah meluncurkan alat baru dan gratis untuk mencegah bot mengambil data dari situs web yang dihosting di platformnya guna melatih model AI.

Beberapa vendor AI, termasuk Google, OpenAI, dan Apple, mengizinkan pemilik situs web untuk memblokir bot yang mereka gunakan untuk pengikisan data dan pelatihan model dengan mengubah robots.txt situs mereka, file teks yang memberi tahu bot halaman mana yang dapat mereka akses di situs web. Namun, seperti yang ditunjukkan Cloudflare dalam pos mengumumkan alat pemberantasan bot, tidak semua pengikis AI menghargai hal ini.

“Pelanggan tidak ingin bot AI mengunjungi situs web mereka, terutama yang melakukannya secara tidak jujur,” tulis perusahaan tersebut di blog resminya. “Kami khawatir beberapa perusahaan AI yang berniat menghindari aturan untuk mengakses konten akan terus beradaptasi untuk menghindari deteksi bot.”

Jadi, dalam upaya mengatasi masalah tersebut, Cloudflare menganalisis lalu lintas bot AI dan perayap untuk menyempurnakan model deteksi bot otomatis. Model tersebut mempertimbangkan, antara lain, apakah bot AI mungkin mencoba menghindari deteksi dengan meniru penampilan dan perilaku seseorang yang menggunakan peramban web.

“Ketika pelaku kejahatan mencoba merayapi situs web dalam skala besar, mereka biasanya menggunakan alat dan kerangka kerja yang dapat kami sidik jarinya,” tulis Cloudflare. “Berdasarkan sinyal-sinyal ini, model kami [are] mampu menandai lalu lintas dari bot AI yang sulit dipahami sebagai bot dengan tepat.”

Cloudflare telah menyiapkan formulir bagi host untuk melaporkan dugaan bot dan perayap AI dan mengatakan bahwa mereka akan terus memasukkan bot AI ke dalam daftar hitam secara manual seiring berjalannya waktu.

Masalah bot AI menjadi jelas terlihat seiring maraknya AI generatif yang memicu permintaan terhadap data pelatihan model.

Banyak situs, yang waspada terhadap vendor AI yang melatih model pada konten mereka tanpa memberi tahu atau memberi kompensasi kepada mereka, telah memilih untuk memblokir scraper dan crawler AI. Sekitar 26% dari 1.000 situs teratas di web telah memblokir bot OpenAI, menurut salah satu belajarBahasa Indonesia: lain menemukan bahwa lebih dari 600 penerbit berita telah memblokir bot tersebut.

Namun, pemblokiran bukanlah perlindungan yang pasti. Seperti yang disinggung sebelumnya, beberapa vendor tampaknya mengabaikan aturan pengecualian bot standar untuk mendapatkan keunggulan kompetitif dalam persaingan AI. Mesin pencari AI Perplexity baru-baru ini dituduh menyamar sebagai pengunjung yang sah untuk mengambil konten dari situs web.

Alat seperti milik Cloudflare dapat membantu — tetapi hanya jika alat tersebut terbukti akurat dalam mendeteksi bot AI rahasia.

Sumber