Kecanggihan akal imitasi atau artificial intelligence terus berkembang. Namun, kolaborasi para ahli dari berbagai disiplin dunia secara internasional membuka celah keterbatasan mesin kecerdasan buatan dalam mengerjakan tes atau ujian yang luas dan sulit yag didasarkan pada pengetahuan ahli manusia.
Memang, sistem kecerdasan buatan atau AI saat ini mulai mencetak skor sangat tinggi pada tolok ukur akademis yang telah lama digunakan. AI sudah menunjukkan keunggulannya dalam tes tradisional.
Evaluasi terkenal seperti ujian Massive Multitask Language Understanding (MMLU), kini dinilai mulai gagal mengukur kemampuan model AI canggih saat ini dengan tepat. Tes yang dulunya menantang mesin tidak lagi cukup sulit.
Untuk mengatasi hal ini, sekelompok peneliti di seluruh dunia yang berjumlah hampir 1.000 orang mengembangkan jenis tes baru. Tujuannya untuk membangun ujian yang luas dan kompleks dengan cara yang masih sulit ditangani oleh sistem AI saat ini.
Tes pada sistem AI yang dinamakan Humanity's Last Exam/HLE atau "Ujian Terakhir Umat Manusia" seperti yang dipublikasikan di jurnal Nature pada Januari 2026 merupakan sebuah penilaian berisi 2.500 pertanyaan, yang mencakup matematika, humaniora, ilmu pengetahuan alam, bahasa kuno, dan berbagai bidang akademik yang sangat khusus.
Soal-soal yang disajikan para ahli orisinal, tepat, tidak ambigu, dan sulit dicari di internet atau diambil dari basis data. Di antara beragam soal dalam tolok ukur ini, HLE menekankan pada soal-soal matematika kelas dunia yang bertujuan untuk menguji kemampuan penalaran mendalam yang dapat diterapkan secara luas di berbagai bidang akademik
Tung Nguyen, instructional associate professor di Departemen Ilmu Komputer dan Teknik di Texas A&M menjelaskan, ketika sistem AI mulai berkinerja sangat baik pada tolok ukur manusia, masyarakat cenderung berpikir bahwa mereka mendekati pemahaman tingkat manusia. "Tetapi HLE mengingatkan kita bahwa kecerdasan bukan hanya tentang pengenalan pola, tetapi juga tentang kedalaman, konteks, dan keahlian khusus," ujar Nguyen.
Lebih lanjut, Nguyen mengatakan, tujuan ujian HLE bukanlah untuk mengelabui atau mengalahkan peserta ujian manusia. “Sebaliknya, tujuannya adalah untuk secara cermat mengidentifikasi area di mana sistem AI masih memiliki kekurangan,” tegasnya.
Para spesialis dari seluruh dunia menulis dan meninjau pertanyaan-pertanyaan yang termasuk dalam HLE. Setiap soal dirancang dengan cermat sehingga memiliki satu jawaban yang jelas dan dapat diverifikasi. Pertanyaan-pertanyaan tersebut juga dirancang untuk mencegah solusi cepat melalui pencarian internet sederhana.
Pemahaman itu membantu kita membangun teknologi yang lebih aman dan andal.
Topik-topik tersebut berasal dari tantangan akademis tingkat lanjut. Beberapa tugas melibatkan penerjemahan prasasti Palmyrene kuno. Sementara yang lain membutuhkan identifikasi struktur anatomi kecil pada burung atau analisis fitur detail pengucapan bahasa Ibrani Alkitab.
Para peneliti menguji setiap pertanyaan terhadap sistem AI terkemuka. Jika ada model yang mampu menjawab pertanyaan dengan benar, pertanyaan tersebut dihapus dari ujian akhir. Proses ini memastikan bahwa ujian tetap berada sedikit di luar kemampuan sistem AI saat ini untuk menyelesaikannya secara andal.
Long Phan, penelity dari Center for AI Safety yang juga terlibat dalam penelitian, memaparkan, pengujian awal mengonfirmasi bahwa strategi tersebut berhasil. Bahkan model AI yang canggih pun kesulitan dalam ujian tersebut.
Phan mengungkapkan, GPT-4o mencapai skor 2,7 persen, sementara Claude 3.5 Sonnet mencapai 4,1 persen. Model o1 dari OpenAI berkinerja sedikit lebih baik dengan 8 persen. Sistem yang paling mumpuni sejauh ini, termasuk Gemini 3.1 Pro dan Claude Opus 4.6, telah mencapai tingkat akurasi antara sekitar 40 persen dan 50 persen.
Nguyen menjelaskan, masalah AI yang melampaui tes-tes lama bukan hanya masalah teknis. Sistem AI perlu diuji seberapa baik dapat menyelesaikan tugas-tugas spesifik yang dibuat untuk pembelajar manusia, bukan menangkap pemahaman yang lebih dalam. Bukan juga perlombaan manusia melawan AI.
Nguyen mengatakan menguji AI dengan HLE bukanlah bermaksud menyiratkan bahwa manusia akan menjadi usang. Sebaliknya, ini menyoroti banyaknya pengetahuan dan keahlian yang masih unik bagi manusia.
"Ini adalah metode untuk memahami di mana sistem-sistem AI kuat dan di mana AI kesulitan. Pemahaman itu membantu kita membangun teknologi yang lebih aman dan andal. Dan, yang terpenting, itu mengingatkan kita mengapa keahlian manusia masih penting," kata Nguyen yang menyumbangkan 73 dari 2.500 pertanyaan HLE yang berkaitan dengan matematika dan ilmu komputer.
Menurut Nguyen, tanpa alat penilaian yang akurat, para pembuat kebijakan, pengembang, dan pengguna berisiko salah menafsirkan apa yang sebenarnya dapat dilakukan oleh sistem AI. Tes HLE dirancang untuk berfungsi sebagai tolok ukur yang tahan lama dan transparan bagi sistem AI di masa depan.
"Untuk saat ini, HLE merupakan salah satu penilaian paling jelas tentang kesenjangan antara AI dan kecerdasan manusia. Meskipun ada kemajuan teknologi yang pesat, kesenjangan itu tetap lebar," kata Nguyen.





