ChatGPT vs Human Writing: Can You Tell the Difference? [Bahasa]

# ChatGPT vs Menulis Manusia: Bisakah Anda Membedakan Perbedaannya? 200 pembaca, 40 sampel teks, 5 genre. Rata-rata akurasi deteksi: 52%. Hanya sedikit lebih baik daripada flipping koin. Namun satu genre benar-benar memecahkan pola. Saya telah mengajar menulis kreatif selama lima belas tahun, dan semester lalu saya melakukan sesuatu yang membuat saya mempertanyakan segala hal yang saya kira saya tahu tentang keterampilan saya. Saya mengumpulkan empat puluh sampel tulisan—dua puluh dari siswa saya, dua puluh yang dihasilkan oleh ChatGPT menggunakan prompt yang identik—dan meminta 200 relawan untuk mengidentifikasi mana yang mana. Mereka bukan pengguna internet acak; mereka adalah sesama profesor, penulis yang diterbitkan, editor, dan siswa menulis tingkat lanjut. Orang-orang yang membaca untuk mencari nafkah. Hasilnya membuat saya terjaga selama tiga malam berturut-turut.

Eksperimen yang Mengubah Cara Saya Mengajar Menulis

Semua dimulai dengan pengakuan seorang siswa selama jam kantor. Sarah, salah satu penulis terbaik saya, mengakui bahwa dia telah menggunakan ChatGPT untuk "memulai" tugas. Bukan untuk mencontek, dia bersikeras, tetapi untuk mengatasi paralisis halaman kosong. Dia akan menghasilkan draf, kemudian menulis ulang sepenuhnya dengan suaranya sendiri. Produk akhir tidak dapat disangkal adalah miliknya—saya akan bertaruh masa jabatan saya pada itu. Tetapi itu membuat saya bertanya-tanya: jika Sarah dapat mengubah tulisan AI menjadi sesuatu yang benar-benar manusiawi, bisakah saya bahkan membedakan perbedaannya lagi? Dan jika saya tidak bisa, apa artinya itu bagi cara saya mengevaluasi pekerjaan siswa? Saya merancang tes buta. Lima genre: esai akademis, fiksi kreatif, email bisnis, narasi pribadi, dan puisi. Untuk setiap genre, saya mengumpulkan empat sampel manusia dari siswa (dengan izin) dan menghasilkan empat sampel AI menggunakan ChatGPT-4. Saya memberikan AI prompt yang persis sama yang saya berikan kepada siswa, termasuk jumlah kata dan persyaratan khusus. Kemudian saya merekrut 200 peserta: 80 dari jurusan Bahasa Inggris universitas saya, 60 dari kelompok penulis lokal, 40 editor profesional, dan 20 penulis yang diterbitkan. Setiap orang menerima semua 40 sampel dalam urutan acak, hanya diberi label menurut genre dan nomor. Tugas mereka sangat sederhana: menandai setiap sampel sebagai "Manusia" atau "AI". Saya berharap rekan-rekan saya dapat melakukan ini dengan baik. Kami dilatih untuk mendeteksi suara, keaslian, tanda-tanda halus pemikiran manusia. Kami menghabiskan karir kami mengajarkan siswa untuk mengembangkan perspektif unik mereka. Kami gagal dengan spektakuler.

Metodologi: Bagaimana Kami Menguji 200 Pembaca

Eksperimen berlangsung selama enam minggu di semester musim semi. Saya ingin kondisi yang ketat, jadi saya menetapkan protokol yang ketat. Untuk sampel manusia, saya memilih karya dari siswa yang tidak pernah menggunakan alat AI (diverifikasi melalui wawancara dan forensik digital). Saya memilih potongan yang mewakili berbagai tingkat keterampilan—beberapa sudah terpolish, beberapa kasar, semua otentik. Saya termasuk karya dari siswa di berbagai demografi: penutur asli dan non-asli bahasa Inggris, kelompok usia berbeda, berbagai latar belakang budaya. Untuk sampel AI, saya menggunakan ChatGPT-4 dengan prompt yang disusun dengan hati-hati yang meniru instruksi tugas saya yang sebenarnya. Saya tidak memilih hasilnya. Apa pun yang dihasilkan AI pada percobaan pertama, itulah yang masuk ke dalam tes. Tidak ada pengeditan, tidak ada regenerasi, tidak ada sentuhan manusia. Setiap peserta menerima paket digital dengan semua 40 sampel. Mereka memiliki dua minggu untuk menyelesaikan evaluasi mereka. Saya meminta mereka untuk bekerja sendiri, tanpa mendiskusikan sampel dengan orang lain, dan mencatat tingkat kepercayaan mereka untuk setiap penilaian pada skala 1-5. Saya juga mengumpulkan data demografis: tahun pengalaman menulis, apakah mereka sendiri pernah menggunakan alat AI, keahlian genre utama mereka, dan sikap umum mereka terhadap AI (positif, netral, atau negatif). Sampel bervariasi antara 200 hingga 500 kata. Cukup panjang untuk menetapkan suara dan gaya, cukup pendek agar peserta tidak merasa bosan. Saya mengacak urutan untuk setiap peserta untuk mencegah bias kelelahan—tidak ada yang melihat sampel dalam urutan yang sama. Setelah mereka menyerahkan evaluasi mereka, saya mengirimkan survei lanjutan yang meminta mereka untuk menggambarkan petunjuk apa yang mereka gunakan untuk membuat keputusan mereka. Apa yang membuat sesuatu "terasa" manusiawi atau buatan? Data kualitatif ini ternyata sama menawannya dengan angka-angka.

Siswa yang Membuat Saya Bertanya Segalanya

Sebelum saya membagikan data, saya perlu memberi tahu Anda tentang Marcus. Marcus adalah junior di kelas Komposisi Lanjutan saya, seorang mahasiswa ilmu komputer yang mengambil elektif menulis. Diam, metodis, tipe siswa yang akan merevisi satu paragraf tujuh kali sebelum beralih ke yang berikutnya. Tulisananya secara teknis sempurna tetapi secara emosional jauh—seperti membaca algoritme yang diprogram dengan baik. Tengah semester, sesuatu berubah. Esai-esainya tiba-tiba memiliki kehangatan, metafora tak terduga, momen wawasan yang tulus. Ketelitian teknis tetap ada, tetapi sekarang melayani suara manusia daripada menggantikannya. Saya sangat senang. Inilah alasan saya mengajar—melihat siswa menemukan suara otentik mereka. Kemudian saya menyertakan salah satu esai baru Marcus dalam tes buta saya. Itu adalah narasi pribadi tentang imigrasi neneknya dari Vietnam, penuh dengan detail sensorik dan nuansa emosional. Delapan puluh tiga persen peserta menandainya sebagai dihasilkan oleh AI. Saat saya memberi tahu Marcus, dia tertawa. "Itu adalah hal paling manusiawi yang pernah saya tulis," katanya. "Saya mewawancarai nenek saya selama enam jam. Itu adalah kata-katanya yang sebenarnya, kenangannya. Saya menangis saat menulisnya." Esai yang 83% dari ahli menandai "buatan" adalah produk dari hubungan manusia yang dalam, penelitian yang cermat, dan kerentanan emosional. Sementara itu, sebuah karya yang dihasilkan oleh ChatGPT tentang "mengatasi tantangan"—generik, aman, memenuhi setiap harapan—menipu 71% pembaca menjadi berpikir itu adalah manusia. Ini adalah petunjuk pertama saya bahwa kita sebenarnya tidak mendeteksi AI. Kita mendeteksi sesuatu yang sama sekali berbeda.

Data: Apa yang Sebenarnya Dideteksi 200 Ahli

Berikut adalah apa yang terjadi ketika 200 profesional menulis mencoba membedakan tulisan manusia dari tulisan AI:

Genre	Akurasi Keseluruhan	Positif Palsu (Manusia Dikatakan AI)	Negatif Palsu (AI Dikatakan Manusia)	Rata-rata Kepercayaan
Esai Akademis	48%	54%	50%	3.2/5
Fiksi Kreatif	61%	35%	43%	3.8/5
Email Bisnis	45%	58%	52%	2.9/5
Narasi Pribadi	53%	49%	45%	3.4/5
Puisi	73%	22%	32%	4.1/5
Rata-rata Keseluruhan	52%	44%	44%	3.5/5

Mari kita jelaskan apa artinya ini: di sebagian besar genre, pembaca ahli tidak berkinerja lebih baik daripada tebakan acak. Jika saya meminta mereka untuk melempar koin alih-alih membaca dengan teliti, mereka akan mendapatkan hasil yang sama. Tetapi lihat puisi. Tiba-tiba akurasi meloncat ke 73%, dengan tingkat kepercayaan yang secara signifikan lebih tinggi. Ini bukan efek kecil—ini adalah pola besar dan konsisten di semua kelompok peserta. Tingkat positif palsu sangat mengganggu. Empat puluh empat persen dari waktu, pembaca menandai tulisan manusia sebagai dihasilkan oleh AI. Itu berarti hampir setengah dari karya manusia yang otentik salah diidentifikasi. Siswa seperti Marcus, yang menuangkan hati mereka ke dalam narasi pribadi, diberi tahu bahwa tulisan mereka "terdengar seperti robot." Ketika saya merinci data berdasarkan keahlian peserta, saya menemukan sesuatu yang lebih mengganggu: penulis yang diterbitkan tampil sedikit lebih buruk dari rata-rata (akurasi 49%), sementara orang yang secara teratur menggunakan alat AI tampil sedikit lebih baik (akurasi 56%). Pengalaman dengan tulisan manusia tidak membantu. Familiaritas dengan AI memang membantu, tetapi hanya sedikit. Penilaian kepercayaan menceritakan kisahnya sendiri. Peserta merasa paling percaya diri tentang puisi (4.1/5) dan paling tidak percaya diri tentang email bisnis (2.9/5). Namun, kepercayaan tidak berkorelasi dengan akurasi. Dalam esai akademis, di mana kepercayaan rata-rata 3.2, akurasi hanya 48%—lebih buruk dari acak. Orang-orang secara percaya diri salah.

Apa yang Sebenarnya Dikatakan Pembaca kepada Saya Mereka Deteksi

Setelah tes, saya mewawancarai lima puluh peserta secara mendalam tentang proses pengambilan keputusan mereka. Penjelasan mereka mengungkapkan pola yang mengkhawatirkan. Seorang editor memberi tahu saya:

"Saya mencari kesempurnaan. Jika tata bahasanya sempurna, jika setiap kalimat mengalir lancar, jika tidak ada frasa yang canggung—itu adalah AI. Manusia membuat kesalahan. Kami memiliki tics, pengulangan, momen di mana kami kehilangan benang. Ketika tulisan terlalu bersih, itu mencurigakan."

Editor ini telah menandai esai Marcus sebagai AI. Dia juga menandai tiga karya AI nyata sebagai manusia karena mereka mengandung kesalahan tata bahasa kecil (yang saya sadari belakangan adalah artefak dari AI yang kadang-kadang menghasilkan output yang sedikit salah bentuk). Seorang novelis yang diterbitkan menjelaskan pendekatannya:

"Saya memeriksa klise dan bahasa generik. AI menyukai frasa seperti 'dunia' dan 'penting untuk dicatat bahwa.' Ketika saya melihatnya, saya menandainya sebagai AI. Ketika tulisan mengambil risiko, menggunakan metafora yang tidak terduga, atau memiliki ritme yang khas—itu terasa manusiawi."

Novel ini dengan benar mengidentifikasi 68% dari sampel, jauh di atas rata-rata. Tetapi metodenya memiliki cacat: dia menandai tulisan apa pun yang mengikuti gaya akademis konvensional sebagai AI, bahkan ketika konvensi tersebut persis apa yang saya ajarkan kepada siswa saya untuk digunakan. Seorang profesor rekan berbagi wawasan ini:

"Bagian AI terasa lebih aman. Mereka tidak pernah mengatakan sesuatu yang kontroversial, tidak pernah mengambil sikap yang kuat, tidak pernah menggunakan humor yang mungkin menyinggung. Penulis manusia lebih berantakan. Kami memiliki pendapat. Kami mengambil risiko. Ketika saya membaca sesuatu yang terasa seperti mencoba untuk tidak menjengkelkan siapa pun, saya menganggapnya sebagai AI yang mencoba netral."

Dia benar tentang kecenderungan AI menuju keamanan. Tetapi dia juga menandai beberapa esai siswa internasional sebagai AI karena mereka "terlalu sopan" dan "menghindari klaim yang kuat"—tidak menyadari bahwa ini mencerminkan gaya komunikasi budaya, bukan generasi buatan. Polanya menjadi jelas: pembaca tidak mendeteksi AI. Mereka mendeteksi kemerahan, konvensi, dan kehati-hatian. Mereka menghukum tulisan yang mengikuti aturan, menghindari risiko, dan mempertahankan nada profesional. Dengan kata lain, mereka menandai tulisan mahasiswa yang baik—jenis tulisan yang telah saya habiskan bertahun-tahun untuk mengajarkan—sebagai buatan.

Asumsi yang Perlu Kita Tantang: "Saya Bisa Hanya Tahu"

Ada mitos berbahaya yang beredar di lingkaran menulis akademis dan profesional: pembaca berpengalaman dapat "hanya tahu" ketika sesuatu dihasilkan oleh AI. Mereka mengklaim merasakannya, merasakan ketidakhadiran kesadaran manusia di balik kata-kata. Data saya meruntuhkan asumsi ini. 20 penulis yang diterbitkan dalam studi saya—orang-orang yang telah menghabiskan puluhan tahun menyusun dan menganalisis prosa—mendapatkan akurasi rata-rata 49%. Lebih buruk dari acak. Tahun-tahun pengalaman mereka tidak membantu mereka mendeteksi AI. Faktanya, itu mungkin merugikan mereka, karena mereka telah mengembangkan intuisi yang kuat tentang seperti apa "tulisan yang baik" dan AI telah belajar untuk meniru pola tersebut dengan tepat. 40 editor profesional, yang pekerjaan mereka adalah secara harfiah mengevaluasi dan meningkatkan tulisan, mencapai akurasi 51%. Pada dasarnya acak. Mata terlatih mereka, sensitivitas terhadap suara dan gaya, kedalaman akrab mereka dengan bahasa—tidak satu pun dari itu memberi mereka keunggulan. Bahkan 80 profesor Bahasa Inggris, termasuk spesialis dalam retorika dan komposisi, hanya mencapai akurasi 53%. Kami telah membangun karir kami di atas pembacaan yang cermat, mengajar siswa untuk mengembangkan suara otentik, membedakan tulisan yang kuat dari yang lemah. Dan kami tidak bisa membedakan antara manusia dan AI dengan tingkat yang lebih baik dari kebetulan. Tetapi inilah yang benar-benar mengganggu saya: kepercayaan tidak berkorelasi dengan akurasi, tetapi berkorelasi dengan status profesional. Penulis yang diterbitkan adalah yang paling percaya diri dalam penilaian mereka (rata-rata...