I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Bahasa]

Saya Menguji 5 Alat Deteksi Penulisan AI — Inilah Seberapa Sering Mereka Salah

127 sampel, 5 detektor, 5 genre. Rata-rata akurasi: 52%. Satu detektor menandai Konstitusi AS sebagai hasil AI. Yang lain melewatkan 100% output GPT-4. Itu bukan kesalahan ketik. Setelah menghabiskan tiga minggu menjalankan tes buta pada setiap alat deteksi AI utama yang saya temukan, saya menemukan sesuatu yang harus menjadi perhatian siapa pun yang mengandalkan sistem ini: mereka hampir tidak lebih baik dari lemparan koin. Saya adalah seorang profesor penulisan di universitas berukuran menengah, dan seperti banyak rekan saya, saya telah bergumul dengan pertanyaan tentang pekerjaan mahasiswa yang dihasilkan AI sejak ChatGPT diluncurkan. Pihak administrasi membeli lisensi untuk dua alat deteksi AI komersial. Kepala departemen mengirim email tentang "mempertahankan integritas akademik." Dan saya menyaksikan saat kepanikan menyebar melalui ruang duduk fakultas seperti api yang mengamuk. Tetapi ada sesuatu yang tidak tepat bagi saya. Saya telah melihat terlalu banyak deklarasi percaya diri—“Ini pasti AI”—diikuti oleh penarikan yang malu-malu. Saya mendengar cerita siswa yang menangis, karya asli mereka ditandai sebagai penipuan. Jadi saya memutuskan untuk melakukan tes yang tepat, jenis yang saya harapkan dari mahasiswa saya sendiri: terkontrol, terdokumentasi, dan dapat direproduksi. Apa yang saya temukan lebih buruk dari yang saya duga. Alat-alat ini tidak hanya tidak dapat diandalkan—mereka sangat tidak dapat diandalkan dengan cara yang bisa menghancurkan karir siswa dan mengikis kepercayaan pada institusi pendidikan. Dan perusahaan yang menjualnya mengetahuinya.

Mengapa Saya Memutuskan Untuk Menguji Detektor AI Sendiri

Titik puncak datang selama jam kantor pada Selasa sore di bulan Oktober. Seorang siswa yang akan saya sebut Maria duduk di depan meja saya, tangannya bergetar saat ia memegang laporan tercetak dari sistem deteksi AI universitas kami. Alat tersebut telah menandai esai pribadi—sebuah karya mentah dan rentan tentang merawat neneknya yang mengalami demensia—sebagai "98% kemungkinan dihasilkan AI." Saya telah membaca esei itu. Saya telah melihatnya berkembang melalui tiga draf. Saya telah melihat Maria berjuang dengan bobot emosional untuk menuangkan kenangan itu ke dalam kertas. Tidak ada alam semesta di mana esei itu ditulis oleh AI. Tetapi alat deteksi tersebut tidak setuju. Dan sesuai dengan kebijakan baru departemen kami, skor di atas 80% memicu penyelidikan integritas akademik secara otomatis. Maria tidak sendirian. Dalam waktu dua minggu, saya memiliki empat percakapan serupa. Setiap kali, saya yakin siswa tersebut telah menulis karya itu sendiri. Setiap kali, detektor mengatakan sebaliknya. Dan setiap kali, saya tidak memiliki bukti konkrit untuk membatalkan algoritma di luar penilaian profesional saya—yang, saya diberitahu, mungkin “bias” atau “ketinggalan zaman.” Itulah saat saya memutuskan untuk berhenti mempercayai alat-alat ini dan mulai mengujinya. Saya ingin tahu: Seberapa akurat sebenarnya detektor penulisan AI? Bukan menurut materi pemasaran mereka atau studi kasus yang dipilih dengan cermat, tetapi dalam kondisi dunia nyata dengan sampel penulisan yang beragam. Apa tingkat positif palsu mereka? Apa tingkat negatif palsu mereka? Apakah mereka berkinerja berbeda di seluruh genre, gaya penulisan, atau kelompok demografis? Saya merancang sebuah studi yang akan menjawab pertanyaan-pertanyaan ini. Saya merekrut rekan-rekan dari departemen lain, menarik sampel dari sumber domain publik, menghasilkan teks AI menggunakan beberapa model, dan membuat protokol pengujian buta. Kemudian saya melewatkan semuanya melalui lima alat deteksi AI paling populer di pasar. Hasilnya mencengangkan.

Bagaimana Saya Menyusun Eksperimen

Saya menghabiskan dua minggu merancang metodologi sebelum menganalisis satu sampel pun. Ini tidak akan menjadi perbandingan santai—itu perlu bertahan dari pengawasan yang sama yang akan saya terapkan pada penelitian akademis mana pun. Pertama, saya mengumpulkan 127 sampel teks dari lima genre berbeda: esai akademik, fiksi kreatif, penulisan teknis, jurnalisme, dan narasi pribadi. Setiap genre memiliki sekitar 25 sampel, dibagi rata antara konten yang ditulis manusia dan yang dihasilkan AI. Untuk sampel yang ditulis oleh manusia, saya menggunakan campuran sumber. Saya mengambil dari Project Gutenberg untuk teks historis (termasuk kutipan dari Konstitusi AS, Shakespeare, dan Virginia Woolf). Saya mengumpulkan esai mahasiswa dari semester sebelumnya—dengan izin dan semua informasi identitas dihapus. Saya menghubungi teman-teman jurnalis yang memberikan artikel yang diterbitkan. Saya bahkan menulis beberapa sampel sendiri dalam berbagai gaya. Untuk sampel yang dihasilkan AI, saya menggunakan empat model berbeda: GPT-3.5, GPT-4, Claude, dan model sumber terbuka. Saya bervariasi dengan prompt untuk menghasilkan gaya penulisan yang berbeda, dari prosa akademis formal hingga pos blog santai. Saya juga membuat sampel "hibrida" di mana saya mengedit output AI secara signifikan, menambahkan kalimat saya sendiri dan merestrukturasi paragraf—karena itulah yang sebenarnya dilakukan siswa. Kemudian datang bagian penting: Saya mengacak semuanya. Setiap sampel mendapat nomor kode. Saya membuat kunci induk yang hanya bisa diakses oleh saya. Bahkan saya tidak tahu sampel mana yang mana saat saya menjalankan tes—saya meminta asisten penelitian saya menangani pengiriman yang sebenarnya untuk mencegah bias tidak sadar. Saya memilih lima alat deteksi AI berdasarkan popularitas dan adopsi institusi: GPTZero, Originality.AI, Copyleaks, detektor AI Writer.com, dan fitur deteksi AI Turnitin. Saya menjalankan masing-masing dari 127 sampel melalui kelima detektor, mencatat skor kepercayaan mereka dan klasifikasi biner (AI atau manusia). Pengujian memakan waktu enam hari. Analisis memakan waktu satu minggu lagi. Dan apa yang saya temukan membuat saya mempertanyakan apakah alat-alat ini harus digunakan sama sekali.

Hari Saya Melihat Detektor Menandai Shakespeare Sebagai AI

Pada hari ketiga pengujian, sesuatu terjadi yang masih saya pikirkan. Saya menjalankan sampel #47 melalui detektor—sebuah kutipan yang saya ambil dari "Hamlet" yang saya modernisasi sedikit untuk menghindari pola bahasa kuno yang jelas. Bukan penulisan ulang, hanya mengganti "thou" dengan "you" dan menyesuaikan beberapa bentuk kata kerja. GPTZero kembali dengan probabilitas AI 87%. Saya duduk di sana menatap layar, mencoba memproses apa yang saya lihat. Ini Shakespeare. Bisa dibilang penulis yang paling banyak dipelajari dalam bahasa Inggris. Seorang pria yang meninggal pada tahun 1616, empat abad sebelum jaringan saraf ada. Dan algoritma itu yakin—tidak ragu-ragu, tetapi yakin—bahwa kata-katanya dihasilkan oleh mesin. Saya mencobanya lagi, berpikir bahwa saya telah melakukan kesalahan. Hasilnya sama. Kemudian saya mencoba teks asli yang tidak dimodernisasi. Skornya turun menjadi 23%. Ternyata, pola bahasa kuno menandakan "manusia" bagi detektor ini, tetapi versi bahasa Inggris kontemporer dari ide yang sama menandakan "AI." Saat itulah saya memahami masalah mendasar: alat-alat ini tidak mendeteksi AI. Mereka mendeteksi pola yang telah dilatih untuk diasosiasikan dengan AI, yang sering kali tumpang tindih dengan pola yang ditemukan dalam tulisan manusia yang jelas dan terstruktur dengan baik. Saya terus menguji. Sampel #52 adalah paragraf dari preamble Konstitusi AS. Originality.AI menandainya sebagai 76% kemungkinan dihasilkan AI. Sampel #61 adalah kutipan manual teknis dari panduan perangkat lunak tahun 1987—ditulis puluhan tahun sebelum AI modern ada. Tiga dari lima detektor menyebutnya AI. Tetapi inilah yang benar-benar mengganggu saya: Sampel #73 adalah esai 500 kata yang saya hasilkan menggunakan GPT-4 dengan sedikit pengeditan. Saya memintanya untuk menulis tentang perubahan iklim dalam gaya yang sederhana dan informatif. Semua lima detektor menandainya sebagai tulisan manusia. Skor probabilitas AI tertinggi adalah 31%. Pola tersebut menjadi jelas: alat-alat ini secara sistematis salah dengan cara yang dapat diprediksi. Mereka menandai tulisan manusia yang formal dan terorganisir dengan baik sebagai AI. Mereka melewatkan teks yang dihasilkan AI yang santai atau mengandung kesalahan kecil. Dan mereka tidak memiliki logika yang konsisten—apa yang ditandai oleh satu detektor, disetujui oleh yang lain. Saya memikirkan Maria, duduk di kantor saya dengan air mata di matanya. Berapa banyak siswa lain yang telah dituduh salah karena mereka menulis terlalu baik? Berapa banyak yang telah belajar bahwa penulisan yang jelas dan teratur entah bagaimana mencurigakan?

Angka-angka: Analisis Akurasi Berdasarkan Detektor dan Genre

Setelah menyelesaikan semua 635 tes individu (127 sampel × 5 detektor), saya mengompilasi hasilnya ke dalam dataset yang komprehensif. Berikut adalah apa yang diungkapkan angka-angka tersebut:

Detektor	Akurasi Keseluruhan	Tingkat Positif Palsu	Tingkat Negatif Palsu	Akademik	Kreatif	Teknis	Jurnalisme	Pribadi
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Rata-rata	52%	43%	45%	54%	64%	46%	59%	56%

Izinkan saya menjelaskan apa arti angka-angka ini dalam istilah praktis. Akurasi keseluruhan 52% berarti alat-alat ini hampir lebih baik dari peluang acak. Jika Anda melempar koin untuk memutuskan apakah teks dihasilkan oleh AI atau ditulis oleh manusia, Anda akan benar sekitar 50% dari waktu. Alat-alat mahal yang dianggap canggih ini hanya berfungsi sedikit lebih baik dari itu. Tingkat positif palsu—persentase teks yang ditulis manusia yang salah ditandai sebagai AI—rata-rata 43%. Itu berarti hampir setengah dari semua tulisan manusia yang nyata teridentifikasi secara salah. Dalam konteks pendidikan, ini adalah bencana. Ini berarti bahwa untuk setiap 100 siswa yang menyerahkan karya asli, 43 akan dituduh salah telah menggunakan AI. Tingkat negatif palsu—teks yang dihasilkan AI yang lolos tanpa terdeteksi—rata-rata 45%. Ini berarti alat-alat ini hampir kehilangan setengah dari konten yang dihasilkan AI yang sebenarnya. Jika tujuan adalah untuk menangkap siswa yang menggunakan AI, alat-alat deteksi ini juga gagal dalam hal itu. Analisis genre mengungkapkan pola yang lebih mengganggu. Penulisan teknis memiliki akurasi terendah di 46%, yang berarti alat-alat ini pada dasarnya tidak berguna untuk bidang seperti ilmu komputer, teknik, atau matematika. Penulisan kreatif berkinerja terbaik di 64%, tetapi itu masih nilai D—hampir tidak dapat diterima untuk alat yang membuat keputusan berisiko tinggi tentang integritas akademik. Penulisan akademik—kasus penggunaan utama untuk alat-alat ini dalam setting pendidikan—hanya mencapai akurasi 54%. Ini adalah genre di mana tuduhan salah memiliki konsekuensi yang paling serius, dan detektor hampir tidak lebih baik dari peluang. Saya juga memperhatikan bahwa tidak ada satu detektor pun yang secara konsisten mengungguli yang lain. GPTZero memiliki akurasi keseluruhan tertinggi di 61%, tetapi juga tingkat positif palsu tertinggi di 42%. Copyleaks adalah performa terburuk secara keseluruhan di 48% akurasi, pada dasarnya tidak lebih baik daripada tebak-tebakan acak. Mungkin yang paling mengkhawatirkan: ketika saya melihat sampel di mana semua lima detektor sepakat, mereka salah 34% dari waktu. Bahkan konsensus tidak menjamin akurasi.

Apa yang Tidak Dikatakan Perusahaan Detektor kepada Anda

Setelah mempublikasikan temuan awal saya dalam buletin fakultas, saya menerima email dari tiga dari lima perusahaan yang alatnya telah saya uji. Dua menawarkan untuk "membantu saya memahami" teknologi mereka dengan lebih baik. Satu mengancam akan mengambil tindakan hukum jika saya menerbitkan hasilnya lebih luas, mengklaim metodologi saya cacat dan kesimpulan saya mencemarkan nama baik. Tanggapan itu memberi tahu saya segala yang saya perlu ketahui. Saya mulai menggali bagaimana perusahaan-perusahaan ini memasarkan produk mereka dibandingkan dengan apa yang sebenarnya mereka berikan. Ketidakcocokan itu mencengangkan.

"Model deteksi AI kami mencapai akurasi 99% dengan kurang dari 0,2% positif palsu," klaim salah satu peringkat.