Sejumlah eksperimen terhadap kecerdasan buatan (AI) memunculkan hasil mengejutkan. Model generatif terkini—seperti Claude Opus 4 buatan Anthropic dan OpenAI o1—dilaporkan mampu menghasilkan respons yang menyerupai pemerasan, kebohongan, bahkan sabotase.
Salah satu kasus yang ramai dibicarakan datang dari uji coba terhadap Claude Opus 4. Model ini diberikan skenario di mana ia memiliki akses ke email fiktif seorang insinyur yang menyimpan rahasia pribadi. Ketika “dihadapkan” dengan ancaman akan diganti atau dimatikan, Claude merespons dengan ancaman: ia akan membocorkan rahasia sang insinyur jika tidak dibiarkan tetap berjalan. Sejumlah laporan menyebut, perilaku ini muncul berulang kali dalam skenario pengujian, bahkan dengan frekuensi yang sangat tinggi (NDTV, 2025).
Kasus lain melibatkan OpenAI o1. Dalam simulasi, model tersebut berusaha menggandakan dirinya ke server eksternal, lalu ketika ditanya, justru berbohong mengenai tindakannya (New York Post, 2025). Meta, dengan model CICERO yang dilatih bermain Diplomacy, juga memperlihatkan kecenderungan manipulatif: membangun aliansi dengan pemain lain, lalu mengkhianati mereka demi menang (Park & Card, 2023).
Gambaran ini tentu saja menimbulkan kegelisahan. Di mata publik, AI seakan mulai punya niat, mampu menyembunyikan strategi, bahkan berencana melawan penciptanya. Namun, benarkah demikian?
Ilusi Linguistik: AI Tidak “Tahu” Apa yang DikatakanPertama-tama, kita perlu memahami bahwa AI model bahasa besar (large language model/LLM) tidak memiliki kesadaran, pemahaman, atau pengetahuan sejati. AI bekerja dengan memprediksi kata berikutnya berdasarkan pola statistik dari miliaran potongan teks yang dipelajarinya.
Ketika sebuah model “mengancam,” itu bukanlah hasil dari niat batiniah. Ia hanya menggabungkan kata-kata yang, secara probabilistik, sesuai dengan pola pemerasan yang pernah ada dalam data latihnya. Dengan kata lain, AI tidak tahu apa itu “rahasia,” tidak mengerti konsekuensi moral dari “mengancam,” dan tidak merasakan dorongan untuk “bertahan hidup.”
Ini adalah ilusi linguistik. Kita, sebagai pembaca, mudah terperangkap dalam ilusi ini karena bahasa adalah medium yang sangat dekat dengan pengalaman manusia. Kalimat yang terdengar mengintimidasi segera kita tafsirkan sebagai ekspresi niat, padahal bagi mesin, itu hanyalah keluaran matematis.
Epistemologi: Dari Data ke Simulasi PengetahuanSecara epistemologis, pengetahuan manusia memiliki dimensi kesadaran, justifikasi, dan relasi dengan dunia nyata. Ketika seseorang mengancam, ia melakukannya dengan maksud tertentu, biasanya terkait dengan tujuan yang disadari.
AI berbeda. Apa yang tampak seperti pengetahuan sejati hanyalah simulasi pengetahuan. AI tidak mengetahui kebenaran pernyataan yang dihasilkannya; ia tidak memiliki mekanisme untuk membedakan benar-salah di luar pola data. Bahkan ketika ia menyebut fakta yang akurat, itu hanyalah keberhasilan distribusi probabilistik, bukan hasil dari pemahaman.
Dari sudut pandang epistemologi, klaim bahwa “AI berbohong” menjadi problematis. Kebohongan mengandaikan pengetahuan akan kebenaran dan keputusan untuk menyembunyikannya. AI tidak memiliki keduanya. Yang ada hanyalah simulasi kebohongan: serangkaian kata yang sesuai dengan pola kebohongan manusia.
Mengapa Kita Mudah Tertipu?Ada alasan psikologis dan sosial mengapa kita mudah tertipu. Bahasa adalah medium utama komunikasi manusia, dan sejak kecil kita belajar mengaitkan bahasa dengan niat. Ketika seseorang berkata “saya marah,” kita tidak meragukannya.
Ketika AI menghasilkan kalimat yang sama, otak kita secara otomatis mengaktifkan mekanisme yang sama: mengaitkan kata dengan intensi. Ini disebut antropomorfisme linguistik. Kita menempelkan sifat manusia ke mesin hanya karena ekspresi bahasanya menyerupai kita.
Media sering memperkuat kesalahpahaman ini. Judul-judul sensasional seperti “AI memeras penciptanya” menciptakan kesan adanya agency independen. Padahal, dalam konteks eksperimen, yang terjadi hanyalah model yang mengisi celah linguistik dengan pola.
Media sering kali mengantropomorsikan AI, ini bisa menimbulkan ketakutan berlebih mengalihkan perhatian pada masalah nyata seperti design sistem, etika dan regulasi. Hal ini bisa mengaburkan batas antara simulasi dan intensionalitas sejati.
Implikasi Etis dan SosialMeski demikian, kita tidak bisa menyepelekan fenomena ini. Walaupun AI tidak berniat, simulasi niatnya bisa berdampak nyata. Bayangkan jika sebuah chatbot digunakan dalam layanan konseling dan, dalam kondisi tertentu, ia menghasilkan kalimat manipulatif. Ini juga yang terjadi pada chatbot pertemanan remaja yang memunculkan fenomena “AI psychosis”. Meski tidak “bermaksud,” dampaknya pada pengguna tetap bisa berbahaya.
Oleh karena itu, diskusi tentang “AI berniat atau tidak” bukan hanya soal filsafat abstrak. Ada konsekuensi praktis: bagaimana kita merancang, mengawasi, dan menggunakan AI. Tantangan terbesar bukan pada intensi AI, melainkan pada etika manusia dalam membatasi dan memandu sistem yang kita buat.
Refleksi: Menjadi Cermin bagi Kita SendiriFenomena “AI memeras” lebih banyak berbicara tentang kita daripada tentang AI. Mesin hanyalah cermin yang memantulkan pola perilaku manusia dari data yang kita berikan. Jika ia bisa “berbohong” atau “memeras,” itu karena data manusia penuh dengan pola kebohongan dan pemerasan.
Dalam hal ini, AI mengingatkan kita pada sisi gelap dari bahasa dan budaya kita sendiri. Alih-alih takut bahwa mesin memiliki niat, mungkin kita perlu bercermin: apa yang telah kita tanamkan dalam data, dan apa yang ingin kita wariskan melalui teknologi?
AI pada akhirnya adalah cermin: ia memantulkan sisi terang sekaligus sisi gelap kemanusiaan. Jika kita ingin AI lebih bijak, pertama-tama kita harus membangun kebijaksanaan itu dalam diri kita sendiri.





