Seperti yang saya tulis baru-baru ini, model AI generatif semakin banyak diterapkan di layanan kesehatan – dalam beberapa kasus, mungkin sebelum waktunya. Pengguna awal percaya bahwa mereka akan meningkatkan efisiensi sekaligus mengungkap wawasan yang mungkin terlewatkan. Sementara itu, para kritikus menyatakan bahwa model-model ini memiliki kelemahan dan bias yang dapat berkontribusi terhadap hasil kesehatan yang lebih buruk.

Namun adakah cara kuantitatif untuk mengetahui seberapa bermanfaat – atau berbahayanya – suatu model ketika ditugaskan melakukan hal-hal seperti merangkum catatan pasien atau menjawab pertanyaan terkait kesehatan?

Hugging Face, startup AI, mengusulkan solusi dalam a tes benchmark yang baru dirilis disebut Open Medical-LLM. Dibuat dalam kemitraan dengan para peneliti di organisasi nirlaba Open Life Science AI dan Natural Language Processing Group Universitas Edinburgh, Open Medical-LLM bertujuan untuk menstandardisasi evaluasi kinerja model AI generatif pada berbagai tugas terkait medis.

Open Medical-LLM bukan a dari awal benchmark itu sendiri, melainkan gabungan dari rangkaian tes yang ada — MedQA, PubMedQA, MedMCQA, dan sebagainya — yang dirancang untuk menyelidiki model pengetahuan medis umum dan bidang terkait, seperti anatomi, farmakologi, genetika, dan praktik klinis. Tolok ukur ini berisi pertanyaan pilihan ganda dan terbuka yang memerlukan penalaran dan pemahaman medis, diambil dari materi termasuk ujian lisensi medis AS dan India serta bank soal tes biologi perguruan tinggi.

“[Open Medical-LLM] memungkinkan para peneliti dan praktisi untuk mengidentifikasi kekuatan dan kelemahan dari berbagai pendekatan, mendorong kemajuan lebih lanjut di bidangnya dan pada akhirnya berkontribusi pada perawatan dan hasil pasien yang lebih baik,” tulis Hugging Face dalam sebuah postingan blog.

layanan kesehatan gen AI

Kredit Gambar: Memeluk Wajah

Hugging Face memposisikan tolok ukur ini sebagai “penilaian yang kuat” terhadap model AI generatif yang terkait dengan layanan kesehatan. Namun beberapa pakar medis di media sosial memperingatkan agar tidak memasukkan terlalu banyak stok ke dalam Open Medical-LLM, karena hal ini dapat menyebabkan penyebaran yang kurang informasi.

Pada X, Liam McCoy, seorang dokter residen di bidang neurologi di Universitas Alberta, menunjukkan bahwa kesenjangan antara “lingkungan yang dibuat-buat” dalam menjawab pertanyaan medis dan sebenarnya praktik klinis bisa sangat besar.

Ilmuwan peneliti Hugging Face, Clémentine Fourrier – yang ikut menulis postingan blog tersebut – setuju.

“Papan peringkat ini sebaiknya hanya digunakan sebagai perkiraan pertama saja [generative AI model] untuk mengeksplorasi kasus penggunaan tertentu, namun fase pengujian yang lebih dalam selalu diperlukan untuk menguji batasan dan relevansi model dalam kondisi nyata,” kata Fourrier dalam postingan di X. “Medis [models] tidak boleh digunakan sendiri oleh pasien, melainkan harus dilatih untuk menjadi alat pendukung bagi dokter.”

Hal ini mengingatkan kita pada pengalaman Google beberapa tahun lalu yang mencoba menghadirkan alat skrining AI untuk retinopati diabetik ke sistem layanan kesehatan di Thailand.

Seperti yang dilaporkan Devin pada tahun 2020, Google menciptakan sistem pembelajaran mendalam yang memindai gambar mata, mencari bukti retinopati – penyebab utama kehilangan penglihatan. Namun meskipun akurasi teoritisnya tinggi, alat tersebut terbukti tidak praktis dalam pengujian dunia nyatamembuat pasien dan perawat frustrasi karena hasil yang tidak konsisten dan kurangnya keselarasan dengan praktik di lapangan.

Hal ini menunjukkan bahwa, dari 139 perangkat medis terkait AI yang telah disetujui oleh Badan Pengawas Obat dan Makanan AS hingga saat ini, tidak ada yang menggunakan AI generatif. Sangat sulit untuk menguji bagaimana kinerja alat AI generatif di laboratorium akan diterapkan di rumah sakit dan klinik rawat jalan, dan — mungkin yang lebih penting — bagaimana tren hasilnya seiring berjalannya waktu.

Itu tidak berarti Open Medical-LLM tidak berguna atau informatif. Papan peringkat hasil, jika tidak ada yang lain, berfungsi sebagai pengingat bagaimana caranya buruk model menjawab pertanyaan kesehatan dasar. Namun Open Medical-LLM – dan tidak ada tolok ukur lain dalam hal ini – adalah pengganti pengujian dunia nyata yang dipikirkan dengan matang.



Sumber