What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [日本語]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# 読みやすさスコアがあなたに嘘をついている理由（そして代わりに何を使うべきか）

💡 重要なポイント

テストが根本的な欠陥を明らかにした
1つの文書が私の知識を一変させた
データがスコアと理解の間の乖離を示す
式は文脈を無視し、文脈はすべてです

私は50の健康保険文書をテストしました。平均フレッシュ・キンケイド：14年生。平均読者理解度：23%。スコアと理解度の相関関係は0.31でした。

その数字は私を悩ませます。相関関係が0.31ということは、読みやすさスコアは、実際に誰かが自分の読んでいる内容を理解できているかどうかを約10％説明するに過ぎません。残りの90％は？そこが本当の作業が行われる部分です。

私は健康保険会社のUXライターです。つまり、私の仕事は、ストレスを抱えた親が午後11時に子供が熱を出したときに理解できるように、医療用語や法的要件を翻訳することです。私が書く言葉には結果が伴います。誰かが自分の自己負担額を誤解すれば、必要な治療を避けるかもしれません。保障限度を理解できなければ、カバーされていると思っていた医療費で破産するかもしれません。

だから、私たちのコンプライアンスチームがすべてのメンバー通信に対してフレッシュ・キンケイドスコアを8年生未満にすることを義務付け始めたとき、私は嬉しいはずでした。ついに誰かが読みやすさを気にかけたのです。しかし、私は理解度のスコアが下がるのを見たのです。

テストが根本的な欠陥を明らかにした

私は絶望から実験を始めました。私たちは読みやすさの式に従って6か月間文書を「改善」してきました。文を短くしました。多音節の言葉を置き換えました。すべてで8年生の目標に達しました。

メンバーからの苦情は倍増しました。

コールセンターは、以前にも増して人々が混乱していると報告しました。「自分のカバレッジを理解する」という満足度スコアが12ポイント下がりました。何かが深刻に間違っていて、読みやすさスコアがそれを示していませんでした。

私はアーカイブから50の文書を引き出しました。古い「悪い」書き方（12年生-16年生）のものと新しい「改善された」書き方（6年生-9年生）のものを混ぜました。それから、私たちのチームがこれまでやったことのないことをしました：実際のメンバーでテストしました。

各文書ごとに20人の参加者。各人が文書を読み、10の理解度に関する質問に答えました。シンプルな内容です。「自己負担額はいくらですか？」、「理学療法はカバーされていますか？」、「この処方箋にはいくら支払いますか？」

結果は、読みやすさの式に対する私の信頼を打ち砕きました。「より良い」スコアを持つ文書は実際にはパフォーマンスが悪かったのです。すべての読みやすさの規則を破った文書は、時に80％以上の理解率を示しました。フレッシュ・キンケイドのグレードレベルと実際の理解との相関関係は0.31であり、ほぼランダムな確率と同じでした。

1つの文書が私の知識を一変させた

文書#23はメンタルヘルスのカバレッジについてでした。フレッシュ・キンケイドグレードレベルは14.2でした。つまり、理解するためには2年間の大学教育が必要だということです。私たちの読みやすさツールはこれを「非常に難しい」とし、47の変更を推奨しました。

理解率：87％。

文書#31も同じテーマをカバーしていました。「改善」後、グレードは6.8になりました。我々のツールはこれを「読みやすい」と褒めました。

理解率：31％。

私は両方の文書を数時間見ていますが、そのスコアが何を見逃していたのか理解しようとしました。その後、私は私たちのホットラインに3回メンタルヘルスのカバレッジについて呼んだメンバーのマリアさんでテストしました。

彼女は文書#23をゆっくり読みましたが、理解しました。「これは私が知る必要があることを正確に教えてくれます」と彼女は言いました。「セラピストが使っている言葉と同じ言葉を使っています。『外来』が何を意味するのかが分かります。私の約束がそう呼ばれるからです。」

次に、彼女は文書#31を読みました。彼女は短い文と単純な言葉で素早く読んでしまいました。しかし、私が質問したとき、彼女は答えられませんでした。

「こちらの方が簡単に感じる」と彼女は言いましたが、「でも実際には何を言っているのか分からない。『通常の治療』と『危機治療』の違いは何ですか？それは書かれていません。もう一つは実際の用語を使っていたので、調べたり、セラピストに聞いたりできました。」

そのとき、私は理解しました：読みやすさスコアは読みやすさを測りますが、理解を測るものではありません。スピードに最適化されており、理解に最適化されていません。そして医療の分野において、理解なしのスピードは危険です。

データがスコアと理解の間の乖離を示す

私は結果を表にまとめました。今はその表をデスクの上に置いて、リマインダーにしています：

文書タイプ	平均F-Kグレード	平均理解度	相関
元の文書（2019-2020）	13.8	64%	0.18
「改善された」文書（2021-2022）	7.2	52%	0.29
専門用語を使用した文書	12.4	71%
簡略化された用語を使用した文書	8.1	48%
例を含む文書	11.6	79%
例を含まない文書	9.3	43%

パターンは明確でした：読みやすさスコアを改善するものはしばしば理解を傷つけていました。短い文は時には役立ちましたが、常にそうとは限りません。単純な言葉はしばしば悪化させました。具体的な例があることは、どのスコアよりも重要でした。

でも、本当に私を驚かせたのは、適切な専門用語（自己負担、コペイ、自己負担上限）を使用した文書は、それらの用語を簡略化しようとした文書よりも高い理解度を示したことです。

🛠 私たちのツールを探る

TXT1 vs Cursor vs GitHub Copilot — AIコードツール比較 → SQLフォーマッタ & ビューティファイア — 無料オンラインツール → トップ10開発者のヒント →

なぜなら、人々はすでにこれらの用語にあちこちで出くわしていたからです—医者のオフィスで、請求書で、薬局で。異なる言葉を使うと、私たちは物事を明確にするのではなく、翻訳の問題を生み出していました。

式は文脈を無視し、文脈はすべてです

読みやすさの式が実際に測定するものは、文の長さと音節数です。これだけです。フレッシュ・キンケイド、ガニングフォグ、SMOG—すべて同じテーマのバリエーションです。単語をカウントし、音節をカウントし、数学をし、グレードレベルを取得します。

読みやすさの式は1940年代に軍がより良いトレーニングマニュアルを書くのを助けるために発明されました。彼らは、人々が直線的に読んでいた時代、文書が独立していて、読者には前提がなかった世界に合わせて設計されました。その世界はもはや存在しません。

誰かが健康保険の文書を読むとき、彼らはゼロから始めているわけではありません。医者と話をし、請求書を受け取り、カスタマーサービスに電話し、症状をグーグルで調べてきたのです。彼らは文脈、質問、特定の情報ニーズを持ってやって来ています。

読みやすさスコアはそれらのどれも考慮できません。

私はこれを直接テストしました。私たちの処方薬のカバレッジ文書の1つを取り、3つのバージョンを作成しました：

バージョンA：元のテキスト、グレード13.2、標準の薬局用語を使用

バージョンB：簡略化されたテキスト、グレード7.8、技術用語を日常的な言語に置き換えました

バージョンC：元のテキストに用語集を加えたもの、メインテキストのグレードは13.2

最近処方を受け取った人々に各バージョンを見せました。バージョンA（「難しい」もの）は68％の理解でした。バージョンB（「簡単」なもの）は41％の理解でした。バージョンC（Aと同じ難易度ですが、サポートがある）は84％の理解でした。

読みやすさスコアはAとCで同じでした。しかし、文脈を追加するだけで理解が16ポイント跳ね上がったのです。

これが根本的な欠陥です：読みやすさの式は、すべての読者が同じで、すべての読み取り状況が同じであることを前提としています。前の知識、動機、文脈、目的を考慮に入れることはできません。ストレスを抱えた親が自分の子供の薬がカバーされているかどうかを理解しようとしているのと、大学生が教科書を読んでいるのを同じとみなします。

「シンプルな」言語に関する仮定はしばしば間違っています

読みやすさスコアが語る最大の嘘は、シンプルであることが常に良いということです。そうではありません。

私はメンタルヘルスカバレッジ文書でこれを苦労して学びました。私たちは次のような文を持っていました。「外来メンタルヘルスサービスは、自己負担額を満たした後80％をカバーします。」

フレッシュ・キンケイドグレードレベル：12.4。私たちのツールは「外来」（3音節）と「自己負担」（4音節）を問題としました。

それを次のように変更しました：「通常の治療訪問はカバーされます。私たちは80％を支払います。あなたは20％支払います。これは最初の金額を支払った後に始まります。」

フレッシュ・キンケイドグレードレベル：4.2。私たちのツールはこれを気に入りました。

しかし、メンバーはこれを嫌がりました。なぜでしょう？

まず、「通常の治療訪問」はあいまいです。精神科医は含まれますか？集中治療は含まれますか？