What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [Français]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# Pourquoi les scores de lisibilité vous mentent (et quoi utiliser à la place)

💡 Points clés

Les tests ont révélé le défaut fondamental
Un document a changé tout ce que je pensais savoir
Les données montrent la déconnexion entre les scores et la compréhension
Les formules ignorent le contexte, et le contexte est tout

J'ai testé 50 documents d'assurance santé. Moyenne Flesch-Kincaid : Niveau 14. Compréhension moyenne du lecteur : 23 %. La corrélation entre le score et la compréhension était de 0,31.

Ce chiffre me hante. Une corrélation de 0,31 signifie que les scores de lisibilité expliquent environ 10 % de la question de savoir si quelqu'un comprend réellement ce qu'il lit. Les 90 % restants ? C'est là que le vrai travail se passe.

Je suis rédacteur UX dans une compagnie d'assurance santé, ce qui signifie que je passe mes journées à traduire le jargon médical et les exigences légales en quelque chose qu'un parent stressé peut comprendre à 23 heures lorsque son enfant a de la fièvre. Chaque mot que j'écris a des conséquences. Si quelqu'un ne comprend pas sa franchise, il pourrait éviter des soins nécessaires. S'il ne peut pas déchiffrer ses limites de couverture, il pourrait faire face à la faillite à cause d'une facture médicale qu'il pensait couverte.

Alors lorsque notre équipe de conformité a commencé à exiger des scores Flesch-Kincaid inférieurs au niveau 8 pour toutes les communications avec les membres, j'aurais dû être ravi. Enfin, quelqu'un se souciait de la lisibilité. Au lieu de cela, j'ai vu les scores de compréhension tomber.

Les tests ont révélé le défaut fondamental

J'ai commencé mon expérience par désespoir. Nous avions passé six mois à « améliorer » nos documents selon des formules de lisibilité. Nous avons raccourci les phrases. Nous avons remplacé les mots polysyllabiques. Nous avons atteint notre objectif de Niveau 8 sur tout.

Les plaintes des membres ont doublé.

Le centre d'appels a rapporté que les gens étaient plus confus que jamais. Nos scores de satisfaction des membres pour « comprendre ma couverture » ont chuté de 12 points. Quelque chose n'allait pas et les scores de lisibilité ne le montraient pas.

J'ai extrait 50 documents de notre archive—un mélange de vieux écrits « mauvais » (Niveau 12-16) et de nouveaux écrits « améliorés » (Niveau 6-9). Puis j'ai fait quelque chose que notre équipe n'avait jamais fait : je les ai testés avec de vrais membres.

Vingt participants par document. Chaque personne a lu un document puis a répondu à dix questions de compréhension. Des questions simples : « Quelle est votre franchise ? » « La thérapie physique est-elle couverte ? » « Combien paierez-vous pour cette prescription ? »

Les résultats ont ébranlé ma foi dans les formules de lisibilité. Les documents avec des scores « meilleurs » se sont moins bien comportés. Les documents qui enfreignaient toutes les règles de lisibilité avaient parfois des taux de compréhension de 80 % ou plus. La corrélation entre le niveau de la classe Flesch-Kincaid et la compréhension réelle était de 0,31—à peine mieux que le hasard.

Un document a changé tout ce que je pensais savoir

Le document n° 23 concernait la couverture en santé mentale. Il avait un niveau de classe Flesch-Kincaid de 14,2—supposément nécessitant deux années d'université pour être compris. Nos outils de lisibilité l'ont signalé comme « très difficile » et ont recommandé 47 changements.

Taux de compréhension : 87 %.

Le document n° 31 traitait du même sujet. Après nos « améliorations », il a obtenu un score au niveau 6,8. Nos outils l'ont loué comme « facile à lire ».

Taux de compréhension : 31 %.

J'ai passé des heures avec les deux documents, essayant de comprendre ce que les scores manquaient. Puis je les ai testés avec Maria, une membre qui avait appelé notre ligne d'assistance trois fois concernant la couverture en santé mentale.

Elle a lu le document n° 23 lentement, mais elle l'a compris. « Celui-ci me dit exactement ce que j'ai besoin de savoir, » a-t-elle dit. « Il utilise les mêmes mots que mon thérapeute. Je sais ce que signifie 'ambulatoire' parce que c'est ainsi qu'on appelle mes rendez-vous. »

Puis elle a lu le document n° 31. Elle l'a parcouru rapidement—les phrases courtes et les mots simples ont facilité la lecture. Mais quand je lui ai posé des questions, elle n'a pas pu y répondre.

« Celui-ci semble plus facile, » a-t-elle dit, « mais je ne sais pas vraiment ce qu'il me dit. Quelle est la différence entre 'thérapie régulière' et 'thérapie de crise' ? Ça ne le dit pas. L'autre utilisait les vrais termes, donc je pouvais les chercher ou demander à mon thérapeute. »

C'est à ce moment que j'ai compris : les scores de lisibilité mesurent la facilité de lecture, pas la compréhension. Ils sont optimisés pour la vitesse, pas la compréhension. Et dans le domaine de la santé, la vitesse sans compréhension est dangereuse.

Les données montrent la déconnexion entre les scores et la compréhension

J'ai compilé mes résultats dans un tableau que je garde maintenant sur mon bureau comme rappel :

Type de document	Moy. F-K Niveau	Moy. Compréhension	Corrélation
Documents originaux (2019-2020)	13.8	64%	0.18
Documents « améliorés » (2021-2022)	7.2	52%	0.29
Documents avec terminologie spécifique	12.4	71%
Documents avec terminologie simplifiée	8.1	48%
Documents avec exemples	11.6	79%
Documents sans exemples	9.3	43%

Le schéma était clair : les éléments qui amélioraient les scores de lisibilité nuisaient souvent à la compréhension. Les phrases plus courtes aidaient parfois, mais pas toujours. Les mots plus simples aggravaient fréquemment les choses. La présence d'exemples concrets importait plus que tout score.

Mais ce qui m'a vraiment choqué : les documents qui utilisaient une terminologie spécifique (franchise, copayment, maximum hors poche) avaient une meilleure compréhension que les documents qui tentaient de simplifier ces termes (le montant que vous payez en premier, votre paiement à chaque visite, le maximum que vous paierez).

🛠 Explorez nos outils

TXT1 vs Curseur vs GitHub Copilot - Comparaison des outils de code IA → SQL Formatter & Beautifier - Outil en ligne gratuit → Top 10 des conseils et astuces pour développeurs →

Pourquoi ? Parce que les gens rencontraient déjà ces termes partout - à partir du cabinet de leur médecin, de leurs factures, de leur pharmacie. Lorsque nous utilisions des mots différents, nous ne clarifions pas les choses. Nous créions un problème de traduction.

Les formules ignorent le contexte, et le contexte est tout

Voici ce que mesurent réellement les formules de lisibilité : la longueur des phrases et le nombre de syllabes. C'est tout. Flesch-Kincaid, Gunning Fog, SMOG - ce sont toutes des variations sur le même thème. Comptez les mots, comptez les syllabes, effectuez quelques calculs, obtenez un niveau de classe.

Les formules de lisibilité ont été inventées dans les années 1940 pour aider l'armée à rédiger de meilleurs manuels de formation. Elles ont été conçues pour un monde où les gens lisaient linéairement, où les documents étaient autonomes, où les lecteurs n'avaient aucun contexte préalable. Ce monde n'existe plus.

Lorsque quelqu'un lit ses documents d'assurance santé, il ne part pas de zéro. Il a parlé à son médecin. Il a reçu des factures. Il a appelé le service client. Il a googlé ses symptômes. Il arrive avec un contexte, des questions et des besoins d'informations spécifiques.

Un score de lisibilité ne peut pas prendre en compte cela.

J'ai testé cela directement. J'ai pris l'un de nos documents de couverture de médicaments sur ordonnance et créé trois versions :

Version A : Texte original, Niveau 13.2, utilisant la terminologie standard de la pharmacie

Version B : Texte simplifié, Niveau 7.8, remplaçant les termes techniques par un langage quotidien

Version C : Texte original plus un glossaire, Niveau 13.2 pour le texte principal

J'ai montré chaque version à des personnes qui avaient récemment rempli une prescription. La version A (la « difficile ») avait 68 % de compréhension. La version B (la « facile ») avait 41 % de compréhension. La version C (même difficulté que A, mais avec aide) avait 84 % de compréhension.

Le score de lisibilité était identique pour A et C. Mais la compréhension a bondi de 16 points de pourcentage juste en ajoutant du contexte.

C'est le défaut fondamental : les formules de lisibilité supposent que chaque lecteur est le même et que chaque situation de lecture est la même. Elles ne peuvent pas tenir compte de la connaissance préalable, de la motivation, du contexte ou du but. Elles traitent un parent stressé essayant de comprendre si le médicament de son enfant est couvert de la même manière qu'un étudiant en université lisant un manuel.

Les suppositions sur le langage « simple » sont souvent fausses

Le plus grand mensonge que racontent les scores de lisibilité est que plus simple est toujours meilleur. Ce n'est pas le cas.

J'ai appris cela à mes dépens avec nos documents sur la couverture en santé mentale. Nous avions une phrase qui disait : « Les services de santé mentale ambulatoires sont couverts à 80 % après que vous ayez atteint votre franchise. »

Niveau de classe Flesch-Kincaid : 12.4. Nos outils ont signalé « ambulatoire » (3 syllabes) et « franchise » (4 syllabes) comme des problèmes.

Nous l'avons changé en : « Les visites de thérapie régulière sont couvertes. Nous payons 80 %. Vous payez 20 %. Cela commence après que vous ayez payé votre premier montant. »

Niveau de classe Flesch-Kincaid : 4.2. Nos outils l'ont adoré.

Mais les membres l'ont détesté. Pourquoi ?

Tout d'abord, « visites de thérapie régulière » est ambigu. Cela inclut-il la psychiatrie ? Cela inclut-il des traitements intensifs ? Le texte simplifié a causé plus de confusion, pas moins.