What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [中文]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# 为什么可读性评分在欺骗你（以及你应该使用什么）

💡 关键要点

测试揭示了基本缺陷
一份文件改变了我所知道的一切
数据表明评分与理解之间的脱节
公式忽略上下文，而上下文才是一切

我测试了50份健康保险文件。平均 Flesch-Kincaid：14级。平均阅读理解率：23%。评分与可理解性之间的相关性是0.31。

这个数字让我惶惶不安。0.31的相关性意味着可读性评分大约只能解释一个人是否真正理解他们所阅读内容的10%。其他的90%？那才是真正的工作所在。

我在一家健康保险公司担任用户体验写手，这意味着我花时间将医学术语和法律要求翻译成一个在晚上11点因孩子发烧而紧张的父母可以理解的东西。我的每一个字都可能产生后果。如果有人误解了他们的免赔额，他们可能会避免必要的护理。如果他们无法理解他们的保障限额，他们可能会因为一张他们认为是覆盖的医疗账单而面临破产。

所以当我们的合规团队开始要求所有成员通信的Flesch-Kincaid评分低于8级时，我本该感到兴奋。终于，有人关心可读性。然而，我看到理解评分却下降了。

测试揭示了基本缺陷

我出于绝望开始了我的实验。我们花了六个月的时间根据可读性公式“改善”我们的文件。我们缩短句子，替换多音节词。我们在所有方面达到了8级目标。

成员投诉数量翻了一番。

呼叫中心报告说，人们比以往更困惑。我们在“理解我的覆盖范围”上的成员满意度评分下降了12分。有什么地方深深有问题，而可读性评分却没有显示出来。

我从我们的档案中挑选了50份文件——包括一些旧的“不良”写作（12-16级）和新的“改善”写作（6-9级）。然后我做了一件我们团队从未做过的事：我实际上用真实的成员对它们进行了测试。

每个文件20位参与者。每个人阅读一份文件，然后回答十个理解问题。简单的问题：“你的免赔额是多少？”“物理治疗是否覆盖？”“你将为这张处方支付多少？”

结果让我失去了对可读性公式的信心。评分“更好”的文件表现更差。那些违反每条可读性规则的文件有时理解率超过80%。Flesch-Kincaid等级与实际理解的相关性是0.31——勉强比随机几率好。

一份文件改变了我所知道的一切

第23号文件是关于心理健康覆盖的。这份文件的Flesch-Kincaid等级为14.2——据说需要两年的大学才能理解。我们的可读性工具将其标记为“非常困难”，并建议进行47条更改。

理解率：87%。

第31号文件涉及同一主题。在我们的“改善”后，它的评分为6.8级。我们的工具对此赞不绝口，称其为“易读”。

理解率：31%。

我花了几个小时与这两份文件相处，试图理解评分所缺少的东西。然后我用玛丽亚进行测试，她是一位打过三次电话咨询心理健康覆盖的成员。

她慢慢地阅读第23号文件，但她理解了。“这份文件告诉我我需要知道的确切内容，”她说。“它使用我治疗师使用的相同词汇。我知道‘门诊’的意思，因为这就是我的预约被称为的。”

然后她阅读第31号文件。她迅速浏览过——短句和简单的词汇使得阅读很快。但当我问她问题时，她却无法回答。

“这份文件感觉更简单，”她说，“但我实际上不知道它在告诉我什么。‘常规治疗’和‘危机治疗’有什么区别？没说明。另一份使用了真实的术语，所以我可以查找或询问我的治疗师。”

那时我明白了：可读性评分衡量的是阅读的容易程度，而不是理解。它们针对速度进行了优化，而不是理解。在医疗保健中，缺乏理解的速度是危险的。

数据表明评分与理解之间的脱节

我将结果编排成一张我现在放在桌子上作为提醒的表格：

文件类型	平均 F-K 等级	平均理解率	相关性
原始文件（2019-2020）	13.8	64%	0.18
“改进”文件（2021-2022）	7.2	52%	0.29
包含领域术语的文件	12.4	71%
包含简化术语的文件	8.1	48%
包含示例的文件	11.6	79%
没有示例的文件	9.3	43%

模式很明显：改善可读性评分的事物通常会损害理解能力。较短的句子有时会有所帮助，但并不总是如此。简单的词汇往往会使情况更糟。具体示例的存在比任何评分都更重要。

但真正让我感到震惊的是：使用正确领域术语的文件（免赔额、共付、个人支付上限）的理解率高于试图简化这些术语的文件（你先支付的金额、你每次就医的支付、你最多支付的金额）。

🛠 探索我们的工具

TXT1 与光标 vs GitHub Copilot - AI 代码工具比较 → SQL 格式化工具 & 美化工具 - 免费在线工具 → 开发者十大技巧 →

为什么？因为人们在其医生办公室、账单和药店都已经接触到这些术语。当我们使用不同的词时，我们并没有使事情更清晰。我们创造了一个翻译问题。

公式忽略上下文，而上下文才是一切

可读性公式实际上测量的是：句子长度和音节数量。就这样。Flesch-Kincaid、Gunning Fog、SMOG——它们都是同一主题的变体。计算单词，计算音节，做一些数学，得到一个年级水平。

可读性公式是在1940年代为帮助军事编写更好的培训手册而发明的。它们是为一个人们线性阅读的世界而设计的，在这个世界里，文件单独存在，阅读者没有先前的上下文。这样的世界已经不存在了。

当某人阅读他们的健康保险文件时，他们并不是从零开始。它们已经和医生交谈过，收到了账单，拨打了客服电话，谷歌过他们的症状。他们带着上下文、问题和特定的信息需求而来。

可读性评分无法考虑到任何这些。

我直接测试了这个。我拿了一份我们的处方药覆盖文件，并创建了三个版本：

A版：原文，13.2级，使用标准药房术语

B版：简化文本，7.8级，用日常语言替代技术术语

C版：原文加术语表，主文本13.2级

我向最近填过处方的人展示了每个版本。A版（“困难”版本）的理解率为68%。B版（“简单”版本）的理解率为41%。C版（与A版的难度相同，但有支持）的理解率为84%。

A版和C版的可读性评分是相同的。但仅通过添加上下文，理解率就跳升了16个百分点。

这就是根本缺陷：可读性公式假设每个读者都是相同的，每个阅读情况都是相同的。它们无法考虑先前的知识、动机、上下文或目的。它们把一个紧张的父母与一个大学生阅读教科书的情况当作相同的情况来处理。

关于“简单”语言的假设往往是错误的

可读性评分最大一个谎言就是简单一定更好。并不是。

我在我们的心理健康覆盖文件中深受其害。我们有一句话是：“在满足免赔额后，门诊心理健康服务的覆盖率为80%。”

Flesch-Kincaid等级：12.4。我们的工具将“门诊”（3个音节）和“免赔额”（4个音节）标记为问题。

我们将其更改为：“常规治疗访问是有保障的。我们支付80%。你支付20%。这在你支付你的首笔费用后开始。”

Flesch-Kincaid等级：4.2。我们的工具喜欢这个。

但成员们却不喜欢它。为什么？

首先，“常规治疗访问”是模棱两可的。它包含心理科治疗吗？它包括强化治疗吗？