Saya Menguji 5 Alat Deteksi Penulisan AI — Inilah Seberapa Sering Mereka Salah
127 sampel, 5 detektor, 5 genre. Rata-rata akurasi: 52%. Satu detektor menandai Konstitusi AS sebagai hasil AI. Yang lain melewatkan 100% output GPT-4. Itu bukan kesalahan ketik. Setelah menghabiskan tiga minggu menjalankan tes buta pada setiap alat deteksi AI utama yang saya temukan, saya menemukan sesuatu yang harus menjadi perhatian siapa pun yang mengandalkan sistem ini: mereka hampir tidak lebih baik dari lemparan koin. Saya adalah seorang profesor penulisan di universitas berukuran menengah, dan seperti banyak rekan saya, saya telah bergumul dengan pertanyaan tentang pekerjaan mahasiswa yang dihasilkan AI sejak ChatGPT diluncurkan. Pihak administrasi membeli lisensi untuk dua alat deteksi AI komersial. Kepala departemen mengirim email tentang "mempertahankan integritas akademik." Dan saya menyaksikan saat kepanikan menyebar melalui ruang duduk fakultas seperti api yang mengamuk. Tetapi ada sesuatu yang tidak tepat bagi saya. Saya telah melihat terlalu banyak deklarasi percaya diri—“Ini pasti AI”—diikuti oleh penarikan yang malu-malu. Saya mendengar cerita siswa yang menangis, karya asli mereka ditandai sebagai penipuan. Jadi saya memutuskan untuk melakukan tes yang tepat, jenis yang saya harapkan dari mahasiswa saya sendiri: terkontrol, terdokumentasi, dan dapat direproduksi. Apa yang saya temukan lebih buruk dari yang saya duga. Alat-alat ini tidak hanya tidak dapat diandalkan—mereka sangat tidak dapat diandalkan dengan cara yang bisa menghancurkan karir siswa dan mengikis kepercayaan pada institusi pendidikan. Dan perusahaan yang menjualnya mengetahuinya.Mengapa Saya Memutuskan Untuk Menguji Detektor AI Sendiri
Titik puncak datang selama jam kantor pada Selasa sore di bulan Oktober. Seorang siswa yang akan saya sebut Maria duduk di depan meja saya, tangannya bergetar saat ia memegang laporan tercetak dari sistem deteksi AI universitas kami. Alat tersebut telah menandai esai pribadi—sebuah karya mentah dan rentan tentang merawat neneknya yang mengalami demensia—sebagai "98% kemungkinan dihasilkan AI." Saya telah membaca esei itu. Saya telah melihatnya berkembang melalui tiga draf. Saya telah melihat Maria berjuang dengan bobot emosional untuk menuangkan kenangan itu ke dalam kertas. Tidak ada alam semesta di mana esei itu ditulis oleh AI. Tetapi alat deteksi tersebut tidak setuju. Dan sesuai dengan kebijakan baru departemen kami, skor di atas 80% memicu penyelidikan integritas akademik secara otomatis. Maria tidak sendirian. Dalam waktu dua minggu, saya memiliki empat percakapan serupa. Setiap kali, saya yakin siswa tersebut telah menulis karya itu sendiri. Setiap kali, detektor mengatakan sebaliknya. Dan setiap kali, saya tidak memiliki bukti konkrit untuk membatalkan algoritma di luar penilaian profesional saya—yang, saya diberitahu, mungkin “bias” atau “ketinggalan zaman.” Itulah saat saya memutuskan untuk berhenti mempercayai alat-alat ini dan mulai mengujinya. Saya ingin tahu: Seberapa akurat sebenarnya detektor penulisan AI? Bukan menurut materi pemasaran mereka atau studi kasus yang dipilih dengan cermat, tetapi dalam kondisi dunia nyata dengan sampel penulisan yang beragam. Apa tingkat positif palsu mereka? Apa tingkat negatif palsu mereka? Apakah mereka berkinerja berbeda di seluruh genre, gaya penulisan, atau kelompok demografis? Saya merancang sebuah studi yang akan menjawab pertanyaan-pertanyaan ini. Saya merekrut rekan-rekan dari departemen lain, menarik sampel dari sumber domain publik, menghasilkan teks AI menggunakan beberapa model, dan membuat protokol pengujian buta. Kemudian saya melewatkan semuanya melalui lima alat deteksi AI paling populer di pasar. Hasilnya mencengangkan.Bagaimana Saya Menyusun Eksperimen
Saya menghabiskan dua minggu merancang metodologi sebelum menganalisis satu sampel pun. Ini tidak akan menjadi perbandingan santai—itu perlu bertahan dari pengawasan yang sama yang akan saya terapkan pada penelitian akademis mana pun. Pertama, saya mengumpulkan 127 sampel teks dari lima genre berbeda: esai akademik, fiksi kreatif, penulisan teknis, jurnalisme, dan narasi pribadi. Setiap genre memiliki sekitar 25 sampel, dibagi rata antara konten yang ditulis manusia dan yang dihasilkan AI. Untuk sampel yang ditulis oleh manusia, saya menggunakan campuran sumber. Saya mengambil dari Project Gutenberg untuk teks historis (termasuk kutipan dari Konstitusi AS, Shakespeare, dan Virginia Woolf). Saya mengumpulkan esai mahasiswa dari semester sebelumnya—dengan izin dan semua informasi identitas dihapus. Saya menghubungi teman-teman jurnalis yang memberikan artikel yang diterbitkan. Saya bahkan menulis beberapa sampel sendiri dalam berbagai gaya. Untuk sampel yang dihasilkan AI, saya menggunakan empat model berbeda: GPT-3.5, GPT-4, Claude, dan model sumber terbuka. Saya bervariasi dengan prompt untuk menghasilkan gaya penulisan yang berbeda, dari prosa akademis formal hingga pos blog santai. Saya juga membuat sampel "hibrida" di mana saya mengedit output AI secara signifikan, menambahkan kalimat saya sendiri dan merestrukturasi paragraf—karena itulah yang sebenarnya dilakukan siswa. Kemudian datang bagian penting: Saya mengacak semuanya. Setiap sampel mendapat nomor kode. Saya membuat kunci induk yang hanya bisa diakses oleh saya. Bahkan saya tidak tahu sampel mana yang mana saat saya menjalankan tes—saya meminta asisten penelitian saya menangani pengiriman yang sebenarnya untuk mencegah bias tidak sadar. Saya memilih lima alat deteksi AI berdasarkan popularitas dan adopsi institusi: GPTZero, Originality.AI, Copyleaks, detektor AI Writer.com, dan fitur deteksi AI Turnitin. Saya menjalankan masing-masing dari 127 sampel melalui kelima detektor, mencatat skor kepercayaan mereka dan klasifikasi biner (AI atau manusia). Pengujian memakan waktu enam hari. Analisis memakan waktu satu minggu lagi. Dan apa yang saya temukan membuat saya mempertanyakan apakah alat-alat ini harus digunakan sama sekali.Hari Saya Melihat Detektor Menandai Shakespeare Sebagai AI
Pada hari ketiga pengujian, sesuatu terjadi yang masih saya pikirkan. Saya menjalankan sampel #47 melalui detektor—sebuah kutipan yang saya ambil dari "Hamlet" yang saya modernisasi sedikit untuk menghindari pola bahasa kuno yang jelas. Bukan penulisan ulang, hanya mengganti "thou" dengan "you" dan menyesuaikan beberapa bentuk kata kerja. GPTZero kembali dengan probabilitas AI 87%. Saya duduk di sana menatap layar, mencoba memproses apa yang saya lihat. Ini Shakespeare. Bisa dibilang penulis yang paling banyak dipelajari dalam bahasa Inggris. Seorang pria yang meninggal pada tahun 1616, empat abad sebelum jaringan saraf ada. Dan algoritma itu yakin—tidak ragu-ragu, tetapi yakin—bahwa kata-katanya dihasilkan oleh mesin. Saya mencobanya lagi, berpikir bahwa saya telah melakukan kesalahan. Hasilnya sama. Kemudian saya mencoba teks asli yang tidak dimodernisasi. Skornya turun menjadi 23%. Ternyata, pola bahasa kuno menandakan "manusia" bagi detektor ini, tetapi versi bahasa Inggris kontemporer dari ide yang sama menandakan "AI." Saat itulah saya memahami masalah mendasar: alat-alat ini tidak mendeteksi AI. Mereka mendeteksi pola yang telah dilatih untuk diasosiasikan dengan AI, yang sering kali tumpang tindih dengan pola yang ditemukan dalam tulisan manusia yang jelas dan terstruktur dengan baik. Saya terus menguji. Sampel #52 adalah paragraf dari preamble Konstitusi AS. Originality.AI menandainya sebagai 76% kemungkinan dihasilkan AI. Sampel #61 adalah kutipan manual teknis dari panduan perangkat lunak tahun 1987—ditulis puluhan tahun sebelum AI modern ada. Tiga dari lima detektor menyebutnya AI. Tetapi inilah yang benar-benar mengganggu saya: Sampel #73 adalah esai 500 kata yang saya hasilkan menggunakan GPT-4 dengan sedikit pengeditan. Saya memintanya untuk menulis tentang perubahan iklim dalam gaya yang sederhana dan informatif. Semua lima detektor menandainya sebagai tulisan manusia. Skor probabilitas AI tertinggi adalah 31%. Pola tersebut menjadi jelas: alat-alat ini secara sistematis salah dengan cara yang dapat diprediksi. Mereka menandai tulisan manusia yang formal dan terorganisir dengan baik sebagai AI. Mereka melewatkan teks yang dihasilkan AI yang santai atau mengandung kesalahan kecil. Dan mereka tidak memiliki logika yang konsisten—apa yang ditandai oleh satu detektor, disetujui oleh yang lain. Saya memikirkan Maria, duduk di kantor saya dengan air mata di matanya. Berapa banyak siswa lain yang telah dituduh salah karena mereka menulis terlalu baik? Berapa banyak yang telah belajar bahwa penulisan yang jelas dan teratur entah bagaimana mencurigakan?Angka-angka: Analisis Akurasi Berdasarkan Detektor dan Genre
Setelah menyelesaikan semua 635 tes individu (127 sampel × 5 detektor), saya mengompilasi hasilnya ke dalam dataset yang komprehensif. Berikut adalah apa yang diungkapkan angka-angka tersebut:| Detektor | Akurasi Keseluruhan | Tingkat Positif Palsu | Tingkat Negatif Palsu | Akademik | Kreatif | Teknis | Jurnalisme | Pribadi |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| Rata-rata | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
Apa yang Tidak Dikatakan Perusahaan Detektor kepada Anda
Setelah mempublikasikan temuan awal saya dalam buletin fakultas, saya menerima email dari tiga dari lima perusahaan yang alatnya telah saya uji. Dua menawarkan untuk "membantu saya memahami" teknologi mereka dengan lebih baik. Satu mengancam akan mengambil tindakan hukum jika saya menerbitkan hasilnya lebih luas, mengklaim metodologi saya cacat dan kesimpulan saya mencemarkan nama baik. Tanggapan itu memberi tahu saya segala yang saya perlu ketahui. Saya mulai menggali bagaimana perusahaan-perusahaan ini memasarkan produk mereka dibandingkan dengan apa yang sebenarnya mereka berikan. Ketidakcocokan itu mencengangkan."Model deteksi AI kami mencapai akurasi 99% dengan kurang dari 0,2% positif palsu," klaim salah satu peringkat.