Studi Oxford Ungkap Risiko ChatGPT untuk Diagnosis Medis: Sering Keliru

Penggunaan chatbot berbasis akal imitasi atau AI seperti ChatGPT untuk mencari informasi kesehatan kian populer. Namun, studi terbaru dari University of Oxford mengungkap sisi yang perlu diwaspadai.

Studi yang dipimpin oleh Oxford Internet Institute dan Nuffield Department of Primary Care Health Sciences di Universitas Oxford itu mengungkapkan ChatGPT masih kerap keliru ketika digunakan untuk membantu diagnosis medis.

Penelitian yang dipublikasikan di Nature Medicine itu menemukan bahwa model bahasa besar atau LLM belum mampu memberikan keputusan medis yang lebih akurat dibandingkan metode tradisional.

Dalam banyak kasus, pengguna yang mengandalkan AI tidak lebih baik hasilnya dibanding mereka yang mencari informasi sendiri atau menggunakan peramban seperti Google Search.

Studi ini melibatkan hampir 1.300 partisipan yang diminta menganalisis berbagai skenario medis, mulai dari gejala ringan hingga kondisi yang berpotensi darurat. Mereka diminta menentukan kemungkinan penyakit serta langkah yang harus diambil, seperti cukup beristirahat, berkonsultasi ke dokter, atau pergi ke rumah sakit.

Hasilnya menunjukkan bahwa penggunaan ChatGPT tidak meningkatkan ketepatan keputusan. Bahkan, dalam sejumlah kasus, chatbot AI ini memberikan jawaban yang membingungkan karena mencampur informasi yang benar dan salah dalam satu respons.

Masalah lain yang ditemukan yakni inkonsistensi jawaban. Sedikit perubahan dalam cara pengguna mengajukan pertanyaan bisa menghasilkan respons yang sangat berbeda.

Doktor Rebecca Payne dari Nuffield Department of Primary Care Health Sciences menegaskan bahwa masyarakat tidak boleh mengandalkan chatbot sebagai pengganti dokter. Ia memperingatkan bahwa penggunaan AI untuk memahami gejala berisiko menghasilkan diagnosis yang salah dan bisa membuat pengguna terlambat mendapatkan penanganan yang tepat.

"Terlepas dari semua gembar-gembornya, AI belum siap untuk mengambil peran dokter. Pasien perlu menyadari bahwa menanyakan gejala mereka kepada model bahasa besar dapat berbahaya, memberikan diagnosis yang salah dan gagal mengenali kapan bantuan darurat dibutuhkan,” kata Payne dari situs resmi Universitas Oxford, dikutip Rabu (25/3).

Sementara itu, Profesor Adam Mahdi menilai adanya kesenjangan besar antara performa AI di uji laboratorium dengan penggunaan di dunia nyata. Menurutnya, seperti halnya obat baru yang harus melalui uji klinis, sistem AI juga perlu diuji secara menyeluruh dengan melibatkan pengguna nyata sebelum digunakan secara luas.

“Kita tidak dapat hanya mengandalkan tes standar untuk menentukan apakah sistem ini aman untuk digunakan publik,” kata Mahdi.

Studi ini mengungkap tiga tantangan utama dalam penggunaan LLM untuk kebutuhan medis. Pertama, pengguna sering kali tidak mengetahui informasi apa yang perlu disampaikan agar AI dapat memberikan saran yang akurat.

Kedua, jawaban yang dihasilkan LLM bisa sangat berbeda hanya karena sedikit perubahan dalam cara pertanyaan diajukan. Ketiga, respons AI kerap mencampurkan informasi yang benar dan keliru, sehingga sulit bagi pengguna untuk membedakan mana yang dapat dipercaya.

Penulis utama studi, Andrew Bean, menekankan bahwa tantangan ini menunjukkan pentingnya merancang metode pengujian yang lebih kuat untuk teknologi AI. Menurutnya, interaksi dengan manusia nyata menghadirkan kompleksitas yang belum sepenuhnya mampu diatasi, bahkan oleh model AI terbaik saat ini.