Telepon berdering. Di seberang sana terdengar suara anak kita yang panik. Ia mengaku mengalami kecelakaan dan membutuhkan uang secepatnya. Suaranya begitu mirip sehingga orang tua yang menerima telepon bisa tertipu untuk mentranfer uang.
Masalahnya, suara itu bukan suara sang anak. Tapi, suara penipu. Perkembangan kecerdasan buatan (AI) memungkinkan seseorang menduplikasi suara manusia hanya dari beberapa detik rekaman audio. Teknologi yang awalnya dikembangkan untuk berbagai keperluan positif, seperti asisten virtual, industri kreatif, hingga aksesibilitas bagi penyandang disabilitas, kini juga membuka peluang penyalahgunaan yang mengkhawatirkan.
Di Indonesia, ancaman ini menjadi semakin relevan. Penipuan melalui telepon dan pesan singkat sudah lama menjadi salah satu modus kejahatan siber yang paling sering terjadi. Dengan hadirnya teknologi kloning suara berbasis AI, para pelaku kini memiliki senjata baru yang jauh lebih meyakinkan.
Penelitian Kimberly Hyun dari Universitas Cincinnati dan tim di Journal of Marketing Research edisi Maret 2026 menemukan bahwa manusia cenderung lebih percaya kepada suara yang terdengar familiar. Semakin mirip karakteristik suara seseorang dengan suara yang kita kenal, semakin besar pula pengaruhnya terhadap keputusan yang kita ambil.
Faktor yang menjadi kunci adalah timbre atau warna suara, yaitu karakter unik yang membuat suara setiap orang berbeda, layaknya sidik jari. "Setiap suara sangat berbeda, seperti halnya setiap wajah sangat berbeda," kata Hyun.
Penelitian tersebut menganalisis ribuan presentasi bisnis di acara televisi Shark Tank, kampanye penggalangan dana di Kickstarter, serta sejumlah eksperimen laboratorium. Hasilnya menunjukkan bahwa suara yang terdengar familiar mampu meningkatkan kepercayaan dan persuasi, bahkan ketika tidak ada alasan lain untuk menganggap pembicara lebih kredibel.
Temuan ini menjelaskan mengapa penipuan berbasis suara berpotensi menjadi sangat efektif.
Ekosistem penipuan digital di Indonesia sudah sangat aktif bahkan sebelum teknologi kloning suara digunakan secara luas.
Indonesia termasuk salah satu negara dengan tingkat penipuan digital yang tinggi. Modusnya beragam, mulai dari mengaku sebagai petugas bank, polisi, pegawai pajak, kurir, hingga anggota keluarga yang sedang dalam keadaan darurat.
Data Indonesia Anti-Scam Center (IASC) di bawah Otoritas Jasa Keuangan (OJK) mencatat hingga pertengahan 2025 masyarakat melaporkan lebih dari 157.000 kasus penipuan daring dengan total kerugian mencapai Rp 3,2 triliun. Sebagian besar korban terlambat melapor sehingga dana yang berhasil diblokir hanya sebagian kecil dari total kerugian.
Angka tersebut menunjukkan bahwa ekosistem penipuan digital di Indonesia sudah sangat aktif bahkan sebelum teknologi kloning suara digunakan secara luas. Selama ini, para pelaku mengandalkan kemampuan berbicara dan manipulasi psikologis. Namun AI memungkinkan para penipu kini melangkah lebih jauh dengan menggunakan suara yang benar-benar mirip dengan target.
Indonesia memiliki kondisi yang membuat ancaman ini semakin serius. Jumlah pengguna media sosial yang sangat besar berarti jutaan orang secara sukarela mengunggah video dan rekaman suara mereka ke internet setiap hari. Bagi pelaku, materi tersebut dapat menjadi bahan untuk melatih sistem kloning suara berbasis AI.
Bayangkan seorang penipu memperoleh rekaman suara seseorang dari video TikTok, Instagram, YouTube, podcast, atau pesan suara WhatsApp. Dengan teknologi kloning suara yang kini tersedia secara luas, rekaman berdurasi beberapa detik saja dapat digunakan untuk membuat model suara yang sangat mirip.
Pelaku kemudian menelepon orang tua, pasangan, atau rekan kerja korban sambil menggunakan suara hasil kloning tersebut.
Modus yang mungkin muncul antara lain anak yang meminta transfer uang karena kecelakaan atau ditahan polisi, atasan yang memerintahkan staf mentransfer dana perusahaan secara mendesak, kerabat yang meminta bantuan biaya rumah sakit, rekan bisnis yang meminta pembayaran proyek dipercepat, hingga tokoh publik atau pejabat yang suaranya digunakan untuk menyebarkan disinformasi.
Di negara lain, kasus semacam ini sudah sering terjadi dengan melibatkan skandal bernilai besar. Kasus yang sering disebut sebagai salah satu contoh awal dan paling terkenal dari penipuan menggunakan kloning suara AI terjadi pada tahun 2019 dan dilaporkan oleh media keuangan serta perusahaan asuransi siber. Korbannya adalah anak perusahaan sebuah perusahaan energi yang berbasis di Inggris dengan nilai kerugian sekitar 220.000 euro.
Menurut laporan perusahaan asuransi siber Euler Hermes, kini bagian dari Allianz Trade, seorang direktur perusahaan energi di Inggris menerima telepon yang terdengar berasal dari CEO perusahaan induknya di Jerman. Sang "CEO" memerintahkan transfer dana sebesar 220.000 euro untuk transaksi mendesak.
Karena suara, logat, dan gaya bicaranya sangat meyakinkan, perintah tersebut dijalankan. Belakangan diketahui bahwa telepon itu berasal dari penipu yang diduga menggunakan teknologi sintesis suara berbasis AI. Dana pun lenyap.
Yang membuat kasus ini penting adalah dugaan bahwa pelaku menggunakan teknologi sintesis suara berbasis AI untuk meniru suara CEO. Saat itu, teknologi deepfake voice masih tergolong baru dan belum menjadi perhatian luas. Kasus ini menjadi peringatan pertama bagi dunia bisnis bahwa identitas suara dapat dipalsukan dengan tingkat kemiripan yang cukup untuk menipu profesional berpengalaman sekalipun.
Kasus tersebut juga menunjukkan bahwa korban bukan orang awam. Korbannya adalah eksekutif perusahaan yang terbiasa menangani transaksi besar. Artinya, masalahnya bukan sekadar kurang hati-hati, tetapi karena manusia secara alami menganggap suara sebagai bukti identitas yang dapat dipercaya.
Masalah terbesar bukan hanya kualitas teknologi yang terus membaik, tetapi juga kebiasaan masyarakat yang cenderung mempercayai suara.
Kemampuan manusia membedakan suara asli dan suara hasil AI ternyata tidak sebaik yang dibayangkan. Sebuah studi oleh Hayat Bhatti dkk., dipublikasikan sebagai pracetak di arXiv pada Februari 2026 menemukan bahwa peserta penelitian hanya mampu mengidentifikasi suara AI dengan tingkat akurasi sekitar 37 persen.
Jadi, masalah terbesar bukan hanya kualitas teknologi yang terus membaik, tetapi juga kebiasaan masyarakat yang cenderung mempercayai suara. Jika foto dan video masih bisa diperiksa melalui berbagai cara, suara sering kali dianggap sebagai bukti identitas yang cukup kuat. Banyak orang berpikir, "Saya kenal suara anak saya," atau "Saya hafal suara atasan saya."
Penelitian Hyun dan tim menunjukkan bahwa manusia lebih mudah percaya kepada suara yang terdengar familiar. Karakteristik suara yang mirip dengan diri sendiri atau orang yang dikenal dapat meningkatkan tingkat persuasi, bahkan tanpa adanya bukti tambahan mengenai kredibilitas pembicara.
Padahal, justru rasa akrab itulah yang menurut penelitian Hyun dapat menurunkan kewaspadaan. Ketika emosi ikut bermain, misalnya rasa panik, takut, atau kasihan, kemampuan berpikir kritis menjadi semakin lemah. Dalam kondisi seperti itu, korban sering kali mengambil keputusan tanpa melakukan verifikasi.
Temuan ini menjadi penting karena penipuan pada dasarnya adalah permainan kepercayaan. Jika sebelumnya penipu harus membangun kepercayaan melalui percakapan yang panjang, teknologi AI memungkinkan mereka "meminjam" kepercayaan yang sudah ada dengan meniru suara orang yang kita kenal.
Masalahnya, kemampuan manusia mendeteksi suara palsu ternyata tidak terlalu baik. Sebuah studi yang dipublikasikan pada 2026 menemukan bahwa peserta penelitian hanya mampu membedakan suara AI dan suara manusia dengan tingkat akurasi sekitar 37 persen, bahkan lebih rendah dari tebakan acak dalam beberapa skenario. Banyak peserta tetap merasa percaya diri meskipun salah mengidentifikasi suara tersebut.
Para pakar keamanan siber menyarankan agar masyarakat mulai menganggap suara seperti halnya foto atau identitas digital, sesuatu yang dapat dipalsukan. Oleh karena itu, ada beberapa langkah sederhana dapat mengurangi risiko, seperti disarankan otoritas perlindungan konsumen Amerika Serikat, yaitu Federal Trade Commission (FTC).
Pertama, jangan langsung percaya pada panggilan darurat. Jika seseorang mengaku sebagai anggota keluarga dan meminta uang, akhiri panggilan lalu hubungi kembali nomor yang sudah dikenal.
Kedua, gunakan kata sandi keluarga. Buat kode atau pertanyaan rahasia yang hanya diketahui anggota keluarga. Cara ini dapat menjadi lapisan verifikasi tambahan ketika menerima permintaan mendesak.
Ketiga, verifikasi melalui kanal lain. Konfirmasi lewat pesan teks, panggilan video, atau anggota keluarga lainnya sebelum mengirim uang.
Keempat, batasi penyebaran rekaman suara pribadi. Tidak perlu paranoid, tetapi sadari bahwa video dan rekaman suara yang diunggah ke internet dapat menjadi bahan pelatihan bagi teknologi kloning suara.
Kelima, waspadai tekanan waktu. Penipu hampir selalu menciptakan situasi yang mendesak agar korban tidak sempat berpikir atau memeriksa informasi.
Keenam, perusahaan dan instansi perlu memperbarui prosedur keamanan. Instruksi transfer dana atau perubahan rekening tidak boleh hanya mengandalkan panggilan telepon atau pesan suara.
Hingga kini belum banyak kasus kloning suara AI yang terdokumentasi secara terbuka di Indonesia. Namun melihat tingginya angka penipuan digital, para pakar keamanan siber memperingatkan bahwa teknologi ini kemungkinan hanya masalah waktu sebelum digunakan secara luas oleh pelaku kejahatan.
Jika sebelumnya penipu mengandalkan kemampuan meyakinkan korban melalui percakapan, kini mereka dapat memanfaatkan suara yang terdengar seperti anggota keluarga, teman, atau atasan korban sendiri.





