What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [Tiếng Việt]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# Tại Sao Điểm Đọc Hiểu Làm Bạn Lầm Lẫn (Và Nên Sử Dụng Gì Thay Thế)

💡 Những Điểm Chính

Thử Nghiệm Đã Vén Mở Lỗi Cơ Bản
Một Tài Liệu Đã Thay Đổi Tất Cả Những Gì Tôi Nghĩ Tôi Biết
Dữ Liệu Cho Thấy Sự Ngắt Quãng Giữa Điểm Và Hiểu Biết
Công Thức Bỏ Qua Ngữ Cảnh, Và Ngữ Cảnh Là Tất Cả

Tôi đã kiểm tra 50 tài liệu bảo hiểm y tế. Điểm Flesch-Kincaid trung bình: Lớp 14. Hiểu biết của người đọc trung bình: 23%. Mối tương quan giữa điểm và khả năng hiểu là 0.31.

Số liệu đó ám ảnh tôi. Mối tương quan 0.31 có nghĩa là điểm đọc hiểu giải thích khoảng 10% liệu ai đó thực sự hiểu những gì họ đang đọc. 90% còn lại? Đó là nơi công việc thực sự diễn ra.

Tôi là một người viết UX tại một công ty bảo hiểm y tế, có nghĩa là tôi dành cả ngày để chuyển đổi thuật ngữ y tế và yêu cầu pháp lý thành thứ mà một bậc phụ huynh căng thẳng có thể hiểu vào lúc 11 giờ tối khi con của họ bị sốt. Từng từ mà tôi viết có hậu quả. Nếu ai đó hiểu sai về khoản khấu trừ của họ, họ có thể tránh xa sự chăm sóc cần thiết. Nếu họ không thể phân tích giới hạn bảo hiểm của họ, họ có thể đối mặt với tình trạng phá sản vì một hóa đơn y tế mà họ nghĩ là đã được bảo hiểm.

Vì vậy khi nhóm tuân thủ của chúng tôi bắt đầu yêu cầu điểm Flesch-Kincaid dưới Lớp 8 cho tất cả các thông báo dành cho thành viên, lẽ ra tôi nên rất hào hứng. Cuối cùng, có ai đó quan tâm đến khả năng đọc hiểu. Thay vào đó, tôi đã thấy điểm hiểu biết giảm.

Thử Nghiệm Đã Vén Mở Lỗi Cơ Bản

Tôi bắt đầu thí nghiệm của mình từ sự tuyệt vọng. Chúng tôi đã dành sáu tháng để "cải thiện" các tài liệu của mình theo các công thức đọc hiểu. Chúng tôi đã rút ngắn câu. Chúng tôi đã thay thế những từ đa âm tiết. Chúng tôi đã đạt được mục tiêu Lớp 8 ở mọi thứ.

Khiếu nại của thành viên đã tăng gấp đôi.

Trung tâm cuộc gọi báo cáo rằng mọi người bối rối hơn bao giờ hết. Điểm hài lòng của thành viên về "hiểu biết bảo hiểm của tôi" đã giảm 12 điểm. Có điều gì đó thật sự sai lầm, và các điểm đọc hiểu không phản ánh điều đó.

Tôi đã rút ra 50 tài liệu từ kho lưu trữ của chúng tôi—một sự kết hợp giữa các bài viết cũ "xấu" (Lớp 12-16) và các bài viết mới "cải thiện" (Lớp 6-9). Sau đó tôi đã làm điều mà nhóm của chúng tôi chưa bao giờ làm: tôi đã thực sự thử nghiệm chúng với những thành viên thực sự.

Hai mươi người tham gia mỗi tài liệu. Mỗi người đã đọc một tài liệu và sau đó trả lời mười câu hỏi về hiểu biết. Những thứ đơn giản: "Khoản khấu trừ của bạn là gì?" "Liệu vật lý trị liệu có được bảo hiểm không?" "Bạn sẽ phải trả bao nhiêu cho đơn thuốc này?"

Kết quả đã phá vỡ niềm tin của tôi vào các công thức đọc hiểu. Các tài liệu có điểm "tốt hơn" lại thể hiện kém hơn. Các tài liệu vi phạm mọi quy tắc đọc hiểu đôi khi cũng có tỷ lệ hiểu biết trên 80%. Mối tương quan giữa cấp độ Flesch-Kincaid và hiểu biết thực tế là 0.31—chỉ tốt hơn một chút so với khả năng ngẫu nhiên.

Một Tài Liệu Đã Thay Đổi Tất Cả Những Gì Tôi Nghĩ Tôi Biết

Tài liệu số #23 nói về bảo hiểm sức khỏe tâm thần. Nó có cấp độ Flesch-Kincaid là 14.2—được cho là đòi hỏi hai năm học đại học để hiểu. Công cụ đọc hiểu của chúng tôi đã đánh dấu nó là "rất khó" và đề xuất 47 thay đổi.

Tỷ lệ hiểu biết: 87%.

Tài liệu số #31 đã đề cập đến cùng một chủ đề. Sau "cải thiện" của chúng tôi, nó có điểm Lớp 6.8. Công cụ của chúng tôi đã khen ngợi nó là "dễ đọc."

Tỷ lệ hiểu biết: 31%.

Tôi đã ngồi với cả hai tài liệu trong vài giờ, cố gắng hiểu điều mà các điểm đã bỏ lỡ. Sau đó tôi đã thử nghiệm chúng với Maria, một thành viên đã gọi đến đường dây nóng của chúng tôi ba lần về bảo hiểm sức khỏe tâm thần.

Cô ấy đã đọc Tài liệu số #23 một cách chậm rãi, nhưng cô ấy hiểu nó. "Cái này nói cho tôi chính xác những gì tôi cần biết," cô ấy nói. "Nó sử dụng cùng từ mà bác sĩ tâm lý của tôi sử dụng. Tôi biết 'ngoại trú' có nghĩa là gì vì đó là tên gọi của các cuộc hẹn của tôi."

Rồi cô ấy đọc Tài liệu số #31. Cô ấy đọc nhanh qua nó—các câu ngắn và từ đơn giản làm cho nó nhanh chóng. Nhưng khi tôi hỏi cô ấy các câu hỏi, cô ấy không thể trả lời chúng.

"Cái này có vẻ dễ hơn," cô ấy nói, "nhưng thực sự tôi không biết nó đang nói gì. Sự khác biệt giữa 'liệu pháp thông thường' và 'liệu pháp khủng hoảng' là gì? Nó không nói. Cái kia đã sử dụng các thuật ngữ thật, vì vậy tôi có thể tra cứu hoặc hỏi bác sĩ của mình."

Đó là khi tôi hiểu ra: các điểm đọc hiểu đo lường độ dễ đọc, không phải sự hiểu biết. Chúng được tối ưu hóa cho tốc độ, không phải sự hiểu biết. Và trong lĩnh vực chăm sóc sức khỏe, tốc độ mà không có sự hiểu biết là nguy hiểm.

Dữ Liệu Cho Thấy Sự Ngắt Quãng Giữa Điểm Và Hiểu Biết

Tôi đã biên soạn kết quả của mình thành một bảng mà tôi bây giờ giữ trên bàn làm việc như một lời nhắc nhở:

Loại Tài Liệu	Điểm F-K Trung Bình	Hiểu Biết Trung Bình	Mối Tương Quan
Tài liệu gốc (2019-2020)	13.8	64%	0.18
Tài liệu "cải thiện" (2021-2022)	7.2	52%	0.29
Tài liệu có thuật ngữ chuyên ngành	12.4	71%
Tài liệu có thuật ngữ đã được đơn giản hóa	8.1	48%
Tài liệu có ví dụ	11.6	79%
Tài liệu không có ví dụ	9.3	43%

Xu hướng rất rõ ràng: những thứ cải thiện điểm đọc hiểu thường làm tổn thương khả năng hiểu biết. Các câu ngắn đôi khi có ích, nhưng không phải lúc nào cũng như vậy. Những từ đơn giản thường làm mọi thứ trở nên tồi tệ hơn. Sự hiện diện của các ví dụ cụ thể quan trọng hơn bất kỳ điểm số nào.

Nhưng điều thực sự gây sốc với tôi: các tài liệu sử dụng thuật ngữ chuyên ngành chính xác (khoản khấu trừ, thanh toán đồng, giới hạn chi phí ngoài túi) có mức độ hiểu biết cao hơn so với các tài liệu cố gắng đơn giản hóa những thuật ngữ đó (số tiền bạn trả trước, khoản thanh toán của bạn tại mỗi lần khám, số tiền cao nhất mà bạn sẽ trả).

🛠 Khám Phá Các Công Cụ Của Chúng Tôi

TXT1 so với Con Trỏ so với GitHub Copilot — So Sánh Công Cụ AI → Công Cụ Định Dạng & Làm Đẹp SQL — Công Cụ Trực Tuyến Miễn Phí → 10 Mẹo & Thủ Thuật Dành Cho Lập Trình Viên Hàng Đầu →

Tại sao? Bởi vì mọi người đã gặp những thuật ngữ này ở khắp mọi nơi—từ văn phòng bác sĩ của họ, từ hóa đơn của họ, từ hiệu thuốc của họ. Khi chúng tôi sử dụng những từ khác, chúng tôi không làm mọi thứ trở nên rõ ràng hơn. Chúng tôi đang tạo ra một vấn đề dịch thuật.

Công Thức Bỏ Qua Ngữ Cảnh, Và Ngữ Cảnh Là Tất Cả

Đây là những gì các công thức đọc hiểu thực sự đo lường: độ dài câu và số âm tiết. Chỉ có vậy thôi. Flesch-Kincaid, Gunning Fog, SMOG—tất cả đều là các biến thể của cùng một chủ đề. Đếm từ, đếm âm tiết, làm một số toán học, lấy một cấp độ lớp.

Các công thức đọc hiểu được phát minh vào những năm 1940 để giúp quân đội viết các hướng dẫn đào tạo tốt hơn. Chúng được thiết kế cho một thế giới nơi mọi người đọc theo thứ tự tuyến tính, nơi các tài liệu đứng một mình, nơi người đọc không có ngữ cảnh trước đó. Thế giới đó không còn tồn tại nữa.

Khi ai đó đọc các tài liệu bảo hiểm y tế của họ, họ không bắt đầu từ con số không. Họ đã trò chuyện với bác sĩ của họ. Họ đã nhận được hóa đơn. Họ đã gọi đến bộ phận dịch vụ khách hàng. Họ đã tìm kiếm triệu chứng của họ trên google. Họ đến với ngữ cảnh, câu hỏi, và nhu cầu thông tin cụ thể.

Một điểm đọc hiểu không thể tính toán bất kỳ điều gì trong đó.

Tôi đã thử nghiệm điều này một cách trực tiếp. Tôi đã lấy một trong những tài liệu bảo hiểm thuốc của chúng tôi và tạo ra ba phiên bản:

Phiên bản A: Văn bản gốc, Lớp 13.2, sử dụng thuật ngữ hiệu thuốc chuẩn

Phiên bản B: Văn bản đơn giản hóa, Lớp 7.8, thay thế các thuật ngữ kỹ thuật bằng ngôn ngữ hàng ngày

Phiên bản C: Văn bản gốc cộng với một danh sách thuật ngữ, Lớp 13.2 cho văn bản chính

Tôi đã cho mỗi phiên bản này cho những người vừa mới lấy thuốc theo toa. Phiên bản A (phiên bản "khó") có tỷ lệ hiểu biết là 68%. Phiên bản B (phiên bản "dễ") có tỷ lệ hiểu biết là 41%. Phiên bản C (khó khăn giống như A, nhưng có hỗ trợ) có tỷ lệ hiểu biết là 84%.

Điểm đọc hiểu giống nhau cho A và C. Nhưng sự hiểu biết tăng 16 điểm phần trăm chỉ bằng cách thêm ngữ cảnh.

Đây là lỗi cơ bản: các công thức đọc hiểu giả định rằng mọi người đọc đều giống nhau và mọi tình huống đọc đều giống nhau. Chúng không thể tính đến kiến thức trước đó, động lực, ngữ cảnh, hoặc mục đích. Chúng coi một bậc phụ huynh căng thẳng cố gắng tìm hiểu xem liệu thuốc của con họ có được bảo hiểm hay không giống như một sinh viên đại học đang đọc một cuốn sách giáo khoa.

Giả Định Về Ngôn Ngữ "Đơn Giản" Thường Sai

Lời nói dối lớn nhất mà điểm đọc hiểu nói là đơn giản thì luôn tốt hơn. Không phải lúc nào cũng vậy.

Tôi đã học điều này theo cách khó khăn với các tài liệu bảo hiểm sức khỏe tâm thần của chúng tôi. Chúng tôi đã có một câu như sau: "Dịch vụ sức khỏe tâm thần ngoại trú được bảo hiểm 80% sau khi bạn đạt được khoản khấu trừ của mình."

Cấp độ Flesch-Kincaid: 12.4. Các công cụ của chúng tôi đã đánh dấu "ngoại trú" (3 âm tiết) và "khấu trừ" (4 âm tiết) là các vấn đề.

Chúng tôi đã thay đổi nó thành: "Các cuộc hẹn trị liệu thông thường được bảo hiểm. Chúng tôi trả 80%. Bạn trả 20%. Điều này bắt đầu sau khi bạn thanh toán khoản đầu tiên."

Cấp độ Flesch-Kincaid: 4.2. Các công cụ của chúng tôi rất thích nó.

Nhưng các thành viên thì ghét nó. Tại sao?

Đầu tiên, "các cuộc hẹn trị liệu thông thường" là mơ hồ. Nó có bao gồm tâm thần không? Nó có bao gồm các dịch vụ điều trị tích cực không?