AI Detector Katanya Hebat, Tapi Setelah Saya Tes Sendiri Begini Penjelasannya

DAERAH, OPINI105 Views

Saya, Lio, masih duduk di bangku SMK. Belakangan ini, timeline media sosial saya penuh dengan iklan-iklan aneh: “100% lolos AI detector!”, “Teks kamu akan terlihat human dalam hitungan detik!” promosi AI humanizer di mana-mana. Jujur saja, awalnya saya cuma ketawa. Tapi lama-lama saya penasaran: memangnya sesakti itu ya, dan sebisa diandalkan itu kah AI detector yang rame sekarang?

Rasa penasaran itu makin kuat ketika saya sering membaca keluhan orang-orang di kolom komentar. Ada yang bilang tulisannya dituduh AI padahal asli karyanya, ada juga dosen yang kebingungan karena harus memutuskan mana yang benar. Akhirnya, saya berpikir, kalau memang banyak orang ribut soal ini, kenapa saya nggak coba buktikan sendiri? Toh saya cuma siswa, jadi riset ini nggak perlu serumit skripsi mahasiswa. Cukup riset kecil, santai, tapi serius niatnya.

Tujuan saya sederhana,  saya ingin tahu apakah AI detector benar-benar bisa dipercaya untuk membedakan tulisan manusia dan AI, atau malah gampang salah menuduh. Kalau ternyata sering salah, wajar saja kalau banyak orang merasa “difitnah” sebagai pengguna AI padahal menulis sendiri. Bahkan saya juga penasaran, jangan-jangan AI justru lebih jago nyamar jadi manusia ketimbang manusia itu sendiri. Rasa penasaran inilah yang akhirnya bikin saya mulai eksperimen kecil-kecilan, menguji beberapa teks dengan beberapa AI detector yang paling sering dipakai orang.

Eksperimen ini sebenarnya sederhana banget. Saya cuma memanfaatkan apa yang ada di internet, persis seperti orang-orang yang penasaran lalu buka AI detector secara gratis. Saya pilih tiga alat yang paling sering disebut di medsos: GPTZero, Originality.ai, dan Justdone. Tiga nama ini sering muncul di komentar “cara cek skripsi AI” atau “tips lolos detector,” jadi menurut saya wajar kalau dipakai banyak orang. Saya sengaja tidak pakai metode ribet ini benar-benar sudut pandang pengguna biasa yang cuma ingin tahu: kalau saya kasih teks ke alat-alat ini, kira-kira hasilnya seakurat apa?

Supaya hasilnya seru dan kelihatan jelas, saya sengaja bikin tiga jenis teks. Pertama, “teks mabok”, yaitu tulisan yang sengaja saya buat lewat AI tapi gayanya berantakan, penuh slang, lompat-lompat, kayak orang ngobrol capek. Kedua, “teks AI banget”, yang saya minta ke AI untuk ditulis selurus mungkin, baku, dan rapi ala berita mainstream. Terakhir, saya ambil “berita lama” yang jelas-jelas ditulis manusia sebelum era ChatGPT saya pilih yang strukturnya rapi, biar sekalian lihat apakah alat-alat ini bisa salah baca teks manusia zaman dulu.

Gambar 1: Hasil tes teks mabok di GPTZero (terdeteksi Human 98%).
Gambar 2: Hasil tes teks rapi ala AI di Justdone (AI 86%).
Gambar 3: Hasil tes berita lama pra-ChatGPT di Justdone (AI 74%).

Semua teks ini saya masukkan satu per satu ke tiga AI detector tadi. Prosesnya juga sama kayak orang awam. Saya cuma copy paste, lalu catat hasilnya berapa persen mereka yakin itu AI, atau apakah mereka kasih label “Original” atau “Human”. Saya sengaja bikin setenang mungkin, tanpa trik teknis atau pengaturan khusus, karena saya ingin melihat hasil yang benar-benar merepresentasikan pengalaman orang biasa saat pertama kali mencoba alat ini.

Hasilnya, jujur bikin saya ketawa sekaligus mikir. Teks mabok yang jelas-jelas ditulis AI malah dianggap “Human” oleh dua alat (GPTZero dan Originality.ai), sedangkan teks rapi ala AI malah langsung dicap “AI” dengan yakin. Yang paling bikin heran, berita lama yang jelas buatan manusia malah sempat dituduh AI oleh Justdone dengan skor 74%. Artinya, detektor-detektor ini lebih banyak menilai dari gaya tulisan, bukan dari siapa yang benar-benar menulisnya.

Kalau dipikir-pikir, hasil aneh ini sebenarnya masuk akal kalau kita paham cara kerja detektornya. Kebanyakan AI detector, seperti GPTZero, membaca tulisan bukan dari siapa yang menulis, tapi dari pola bahasa. Ada istilah teknis yang sering dipakai, yaitu perplexity dan burstiness. Singkatnya, perplexity itu mengukur seberapa mudah kata-kata dalam teks ditebak. Tulisan manusia biasanya lebih susah ditebak. Kadang nyeleneh, kadang loncat-loncat. Sedangkan tulisan AI cenderung rapi, kata-katanya main aman, mudah diprediksi. Burstiness itu variasi panjang kalimat manusia, kadang nulis satu kalimat super pendek, lalu tiba-tiba panjang banget. AI lebih stabil, rata-rata semua kalimat panjangnya mirip.

Penjelasan ini juga sesuai dengan yang ditulis Shehroz Hassan di Medium (2024), yang bilang GPTZero memang mengandalkan dua indikator itu untuk menilai teks. Bahkan studi Arslan Akram (arXiv, 2023) juga menemukan hal serupa, detektor berbasis pola gampang banget salah nuduh teks manusia yang rapi sebagai AI. Jadi, wajar kalau teks mabok saya justru kelihatan “manusia banget”, sedangkan teks rapi ala berita malah dicap AI.

Menurut saya pribadi, masalah detektor ini nggak cuma soal jurnalis yang sering merasa “difitnah” AI. Yang lebih kasihan justru dosen, editor, atau siapa pun yang bergantung penuh sama alat seperti ini. Mereka dipaksa percaya pada angka persentase, padahal seperti yang saya lihat sendiri, hasil antar detektor bisa saling bertabrakan. GPTZero bisa bilang 99% AI, sedangkan Originality.ai di teks yang sama santai bilang “Original Human”. Ini bikin saya mikir, kalau berita lama aja bisa dituduh AI, gimana nasib mahasiswa yang skripsinya kebetulan rapi banget? Bisa-bisa dinilai curang, padahal nulis beneran.
Kalau dipikir lagi, dampaknya lumayan serius buat banyak orang. Jurnalis bisa kena imbas karena tulisannya dianggap “hasil ChatGPT”, padahal kerja lapangan beneran. Mahasiswa juga rawan dituduh curang hanya karena skripsinya terlalu rapi.

Dan dosen atau editor pun bisa salah ambil keputusan kalau terlalu bergantung pada angka-angka dari detektor.
Tapi di sini saya tekankan, saya tidak bermaksud mempromosikan atau menjatuhkan alat mana pun. Ini murni hasil uji coba pribadi seorang siswa SMK yang penasaran, bukan riset resmi apalagi uji lab. Semua alat yang saya sebut di sini jelas punya kegunaan masing-masing, hanya saja menurut saya, AI detector sebaiknya dipakai sebagai alat bantu, bukan sebagai hakim tunggal untuk menentukan keaslian tulisan.

Riset kecil ini memang belum bisa menjawab semua pertanyaan besar tentang AI dan dunia tulis-menulis, tapi setidaknya cukup membuka mata saya bahwa detektor AI belum bisa dijadikan patokan mutlak. Lucunya, mungkin sekarang AI malah lebih jago berpura-pura jadi manusia ketimbang manusia itu sendiri dan ini bikin banyak orang salah menilai.

Ke depan, saya ingin mengajak beberapa teman di Sekolah saya yang AI developer kota Malang untuk ngobrol dan berdiskusi lebih dalam. Saya juga akan mencoba mengangkat tema yang lebih besar “Apakah benar AI akan menggantikan para penulis dan jurnalis manusia?”. Karena menurut saya, pertanyaan itu jauh lebih penting untuk dijawab sebelum kita sibuk saling tuduh tulisan ini buatan AI atau bukan.

(Yohanes Capelliou Samudra)

 

Leave a Reply

Your email address will not be published. Required fields are marked *