What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [Bahasa]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# Mengapa Skor Keterbacaan Menipu Anda (Dan Apa yang Sebaiknya Digunakan Sebagai Pengganti)

💡 Poin Penting

Pengujian Mengungkapkan Kelemahan Dasar
Satu Dokumen Mengubah Segalanya yang Saya Anggap Saya Ketahui
Data Menunjukkan Keterputusannya Antara Skor dan Pemahaman
Rumus Mengabaikan Konteks, dan Konteks Adalah Segalanya

Saya menguji 50 dokumen asuransi kesehatan. Rata-rata Flesch-Kincaid: Kelas 14. Rata-rata pemahaman pembaca: 23%. Korelasi antara skor dan keterbacaan adalah 0,31.

Angka itu menghantui saya. Korelasi 0,31 berarti skor keterbacaan menjelaskan sekitar 10% apakah seseorang benar-benar memahami apa yang mereka baca. 90% lainnya? Di situlah pekerjaan yang sebenarnya terjadi.

Saya seorang penulis UX di perusahaan asuransi kesehatan, yang berarti saya menghabiskan hari-hari saya menerjemahkan jargon medis dan persyaratan hukum ke dalam sesuatu yang dapat dipahami oleh orang tua yang stres pada pukul 11 malam ketika anak mereka demam. Setiap kata yang saya tulis memiliki konsekuensi. Jika seseorang salah memahami deductible mereka, mereka mungkin menghindari perawatan yang diperlukan. Jika mereka tidak dapat memahami batas cakupan mereka, mereka mungkin menghadapi kebangkrutan karena tagihan medis yang mereka anggap ditanggung.

Jadi ketika tim kepatuhan kami mulai mewajibkan skor Flesch-Kincaid di bawah Kelas 8 untuk semua komunikasi anggota, saya seharusnya senang. Akhirnya, seseorang memperhatikan keterbacaan. Sebaliknya, saya melihat skor pemahaman menurun.

Pengujian Mengungkapkan Kelemahan Dasar

Saya memulai eksperimen saya karena putus asa. Kami telah menghabiskan enam bulan "meningkatkan" dokumen kami sesuai dengan rumus keterbacaan. Kami memperpendek kalimat. Kami mengganti kata-kata polysyllabic. Kami mencapai target Kelas 8 di semuanya.

Keluhan anggota meningkat dua kali lipat.

Pusat panggilan melaporkan bahwa orang-orang lebih bingung dari sebelumnya. Skor kepuasan anggota kami untuk "memahami cakupan saya" turun 12 poin. Sesuatu sangat salah, dan skor keterbacaan tidak menunjukkan itu.

Saya menarik 50 dokumen dari arsip kami—campuran tulisan "buruk" lama (Kelas 12-16) dan tulisan "ditingkatkan" baru (Kelas 6-9). Kemudian saya melakukan sesuatu yang belum pernah dilakukan tim kami: Saya benar-benar mengujinya dengan anggota nyata.

Dua puluh peserta per dokumen. Setiap orang membaca dokumen dan kemudian menjawab sepuluh pertanyaan pemahaman. Hal-hal sederhana: "Apa deductible Anda?" "Apakah terapi fisik ditanggung?" "Berapa banyak yang akan Anda bayar untuk resep ini?"

Hasilnya menghancurkan kepercayaan saya pada rumus keterbacaan. Dokumen dengan skor "lebih baik" berkinerja lebih buruk. Dokumen yang melanggar setiap aturan keterbacaan kadang-kadang memiliki tingkat pemahaman 80%+. Korelasi antara tingkat kelas Flesch-Kincaid dan pemahaman aktual adalah 0,31—nyaris lebih baik daripada peluang acak.

Satu Dokumen Mengubah Segalanya yang Saya Anggap Saya Ketahui

Dokumen #23 adalah tentang cakupan kesehatan mental. Itu memiliki tingkat kelas Flesch-Kincaid 14,2—katanya memerlukan dua tahun kuliah untuk dipahami. Alat keterbacaan kami menandainya sebagai "sangat sulit" dan merekomendasikan 47 perubahan.

Tingkat pemahaman: 87%.

Dokumen #31 membahas topik yang sama. Setelah "perbaikan" kami, itu mendapat skor di Kelas 6,8. Alat kami memujinya sebagai "mudah dibaca."

Tingkat pemahaman: 31%.

Saya duduk dengan kedua dokumen selama berjam-jam, berusaha memahami apa yang hilang dari skor tersebut. Kemudian saya mengujinya dengan Maria, seorang anggota yang telah menelepon hotline kami tiga kali tentang cakupan kesehatan mental.

Dia membaca Dokumen #23 dengan lambat, tetapi dia memahaminya. "Yang ini memberi tahu saya persis apa yang perlu saya ketahui," katanya. "Ini menggunakan kata-kata yang sama yang digunakan terapis saya. Saya tahu apa arti 'rawat jalan' karena itu adalah sebutan untuk janji temu saya."

Kemudian dia membaca Dokumen #31. Dia membacanya dengan cepat—kalimat pendek dan kata-kata sederhana membuatnya cepat. Tetapi ketika saya menanyakan pertanyaan, dia tidak bisa menjawabnya.

"Yang ini terasa lebih mudah," katanya, "tetapi saya sebenarnya tidak tahu apa yang dikatakannya. Apa perbedaan antara 'terapi reguler' dan 'terapi krisis'? Tidak dijelaskan. Yang lainnya menggunakan istilah nyata, jadi saya bisa mencarinya atau bertanya kepada terapis saya."

Saat itulah saya mengerti: skor keterbacaan mengukur kemudahan membaca, bukan pemahaman. Mereka dioptimalkan untuk kecepatan, bukan pemahaman. Dan dalam layanan kesehatan, kecepatan tanpa pemahaman sangat berbahaya.

Data Menunjukkan Keterputusannya Antara Skor dan Pemahaman

Saya mengumpulkan hasil saya ke dalam tabel yang kini saya simpan di meja saya sebagai pengingat:

Jenis Dokumen	Rata-rata Kelas F-K	Rata-rata Pemahaman	Korelasi
Dokumen asli (2019-2020)	13.8	64%	0.18
Dokumen "ditingkatkan" (2021-2022)	7.2	52%	0.29
Dokumen dengan terminologi domain	12.4	71%
Dokumen dengan terminologi disederhanakan	8.1	48%
Dokumen dengan contoh	11.6	79%
Dokumen tanpa contoh	9.3	43%

Pola jelas terlihat: hal-hal yang meningkatkan skor keterbacaan sering kali merugikan pemahaman. Kalimat yang lebih pendek kadang-kadang membantu, tetapi tidak selalu. Kata-kata yang lebih sederhana seringkali membuatnya lebih buruk. Kehadiran contoh konkret lebih penting daripada skor apa pun.

Tetapi inilah yang benar-benar mengejutkan saya: dokumen yang menggunakan terminologi domain yang tepat (deductible, copay, out-of-pocket maximum) memiliki pemahaman yang lebih tinggi dibandingkan dokumen yang berusaha menyederhanakan istilah tersebut (jumlah yang Anda bayar pertama, pembayaran Anda di setiap kunjungan, jumlah maksimum yang akan Anda bayar).

🛠 Jelajahi Alat Kami

TXT1 vs Cursor vs GitHub Copilot — Perbandingan Alat Kode AI → SQL Formatter & Beautifier — Alat Daring Gratis → 10 Tips & Trik Developer Teratas →

Mengapa? Karena orang sudah menemui istilah-istilah ini di mana-mana—dari kantor dokter mereka, dari tagihan mereka, dari apotek mereka. Ketika kami menggunakan kata yang berbeda, kami tidak membuat semuanya lebih jelas. Kami menciptakan masalah terjemahan.

Rumus Mengabaikan Konteks, dan Konteks Adalah Segalanya

Inilah yang sebenarnya diukur oleh rumus keterbacaan: panjang kalimat dan jumlah suku kata. Itu saja. Flesch-Kincaid, Gunning Fog, SMOG—semuanya adalah variasi dari tema yang sama. Hitung kata-kata, hitung suku kata, lakukan beberapa perhitungan, dapatkan tingkat kelas.

Rumus keterbacaan ditemukan pada tahun 1940-an untuk membantu militer menulis manual pelatihan yang lebih baik. Mereka dirancang untuk dunia di mana orang membaca secara linier, di mana dokumen berdiri sendiri, di mana pembaca tidak memiliki konteks sebelumnya. Dunia itu tidak ada lagi.

Ketika seseorang membaca dokumen asuransi kesehatan mereka, mereka tidak memulai dari nol. Mereka telah berbicara dengan dokter mereka. Mereka telah menerima tagihan. Mereka telah menelepon layanan pelanggan. Mereka telah mencari gejala mereka di Google. Mereka masuk dengan konteks, pertanyaan, dan kebutuhan informasi spesifik.

Sebuah skor keterbacaan tidak dapat memperhitungkan semua itu.

Saya menguji ini secara langsung. Saya mengambil salah satu dokumen cakupan obat resep kami dan membuat tiga versi:

Versi A: Teks asli, Kelas 13.2, menggunakan terminologi apotek standar

Versi B: Teks disederhanakan, Kelas 7.8, mengganti istilah teknis dengan bahasa sehari-hari

Versi C: Teks asli ditambah glosarium, Kelas 13.2 untuk teks utama

Saya menunjukkan setiap versi kepada orang-orang yang baru saja mengisi resep. Versi A (yang "sulit") memiliki pemahaman 68%. Versi B (yang "mudah") memiliki pemahaman 41%. Versi C (tingkat kesulitan yang sama dengan A, tetapi dengan dukungan) memiliki pemahaman 84%.

Skor keterbacaan identik untuk A dan C. Tetapi pemahaman meloncat 16 poin persentase hanya dengan menambahkan konteks.

Inilah kelemahan yang mendasar: rumus keterbacaan mengasumsikan setiap pembaca adalah sama dan setiap situasi membaca adalah sama. Mereka tidak dapat memperhitungkan pengetahuan sebelumnya, motivasi, konteks, atau tujuan. Mereka memperlakukan orang tua yang stres yang mencoba mencari tahu apakah obat anaknya ditanggung sama seperti mahasiswa yang membaca buku teks.

Asumsi Tentang Bahasa "Sederhana" Seringkali Salah

Kebohongan terbesar yang dikatakan oleh skor keterbacaan adalah bahwa yang lebih sederhana selalu lebih baik. Itu tidak benar.

Saya belajar ini dengan cara yang sulit dengan dokumen cakupan kesehatan mental kami. Kami memiliki kalimat yang berbunyi: "Layanan kesehatan mental rawat jalan ditanggung 80% setelah Anda memenuhi deductible Anda."

Tingkat kelas Flesch-Kincaid: 12.4. Alat kami menandai "rawat jalan" (3 suku kata) dan "deductible" (4 suku kata) sebagai masalah.

Kami mengubahnya menjadi: "Kunjungan terapi reguler ditanggung. Kami membayar 80%. Anda membayar 20%. Ini mulai berlaku setelah Anda membayar jumlah pertama Anda."

Tingkat kelas Flesch-Kincaid: 4.2. Alat kami menyukainya.

Namun anggota membencinya. Mengapa?

Pertama, "kunjungan terapi reguler" ambigu. Apakah ini termasuk psikiatri? Apakah ini termasuk intensifikasi...