What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [Español]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# Por qué las puntuaciones de legibilidad te están engañando (y qué usar en su lugar)

💡 Puntos Clave

Las Pruebas Revelaron el Flanco Fundamental
Un Documento Cambió Todo lo que Pensaba que Sabía
Los Datos Muestran la Desconexión Entre las Puntuaciones y la Comprensión
Las Fórmulas Ignoran el Contexto, y el Contexto Es Todo

Probé 50 documentos de seguros de salud. Promedio Flesch-Kincaid: Grado 14. Promedio de comprensión del lector: 23%. La correlación entre la puntuación y la comprensibilidad fue de 0.31.

Ese número me atormenta. Una correlación de 0.31 significa que las puntuaciones de legibilidad explican aproximadamente el 10% de si alguien realmente entiende lo que está leyendo. ¿El otro 90%? Ahí es donde ocurre el verdadero trabajo.

Soy redactor de UX en una compañía de seguros de salud, lo que significa que paso mis días traduciendo jerga médica y requisitos legales en algo que un padre estresado puede entender a las 11 PM cuando su hijo tiene fiebre. Cada palabra que escribo tiene consecuencias. Si alguien malinterpreta su deducible, podría evitar la atención necesaria. Si no pueden entender sus límites de cobertura, podrían enfrentar la bancarrota debido a una factura médica que pensaban estaba cubierta.

Así que cuando nuestro equipo de cumplimiento comenzó a exigir puntuaciones Flesch-Kincaid por debajo del Grado 8 para todas las comunicaciones con los miembros, debería haber estado emocionado. Finalmente, alguien se preocupaba por la legibilidad. En cambio, vi caer las puntuaciones de comprensión.

Las Pruebas Revelaron el Flanco Fundamental

Comencé mi experimento por desesperación. Habíamos pasado seis meses "mejorando" nuestros documentos de acuerdo con fórmulas de legibilidad. Acortamos las oraciones. Reemplazamos palabras polysyllabic. Alcanzamos nuestro objetivo de Grado 8 en todo.

Las quejas de los miembros se duplicaron.

El centro de atención telefónica informó que las personas estaban más confundidas que nunca. Nuestras puntuaciones de satisfacción de los miembros para "entender mi cobertura" cayeron 12 puntos. Algo estaba profundamente mal, y las puntuaciones de legibilidad no lo estaban mostrando.

Saqué 50 documentos de nuestro archivo: una mezcla de escritura "mala" antigua (Grados 12-16) y escritura "mejorada" nueva (Grados 6-9). Luego hice algo que nuestro equipo nunca había hecho: en realidad los probé con miembros reales.

Veinte participantes por documento. Cada persona leyó un documento y luego respondió diez preguntas de comprensión. Cosas simples: "¿Cuál es tu deducible?" "¿La terapia física está cubierta?" "¿Cuánto pagarás por esta receta?"

Los resultados destruyeron mi fe en las fórmulas de legibilidad. Documentos con puntuaciones "mejores" funcionaron peor. Documentos que violaban todas las reglas de legibilidad a veces tenían tasas de comprensión superiores al 80%. La correlación entre el nivel de grado Flesch-Kincaid y la comprensión real fue de 0.31—apenas mejor que el azar.

Un Documento Cambió Todo lo que Pensaba que Sabía

El Documento #23 trataba sobre la cobertura de salud mental. Tenía un nivel de grado Flesch-Kincaid de 14.2—supuestamente requiriendo dos años de universidad para entender. Nuestros herramientas de legibilidad lo flaggearon como "muy difícil" y recomendaron 47 cambios.

Tasa de comprensión: 87%.

El Documento #31 cubría el mismo tema. Después de nuestras "mejoras," obtuvo un puntaje de Grado 6.8. Nuestras herramientas lo elogiaron como "fácil de leer."

Tasa de comprensión: 31%.

Estuve sentado con ambos documentos durante horas, tratando de entender qué estaba faltando en las puntuaciones. Luego los probé con María, una miembro que había llamado a nuestra línea de ayuda tres veces sobre cobertura de salud mental.

Ella leyó el Documento #23 lentamente, pero lo entendió. "Este me dice exactamente lo que necesito saber," dijo. "Usa las mismas palabras que mi terapeuta usa. Sé lo que significa 'ambulatorio' porque así llaman a mis citas."

Luego leyó el Documento #31. Lo pasó volando: las oraciones cortas y las palabras simples lo hacían rápido. Pero cuando le hice preguntas, no pudo responderlas.

"Este se siente más fácil," dijo, "pero en realidad no sé lo que me está diciendo. ¿Cuál es la diferencia entre 'terapia regular' y 'terapia de crisis'? No lo dice. El otro usó los términos reales, así que podría buscarlos o preguntar a mi terapeuta."

Ahí fue cuando entendí: las puntuaciones de legibilidad miden la facilidad de lectura, no la comprensión. Están optimizadas para la velocidad, no para la comprensión. Y en el cuidado de la salud, la velocidad sin comprensión es peligrosa.

Los Datos Muestran la Desconexión Entre las Puntuaciones y la Comprensión

Compilé mis resultados en una tabla que ahora mantengo en mi escritorio como recordatorio:

Tipo de Documento	Prom. Grado F-K	Prom. Comprensión	Correlación
Documentos originales (2019-2020)	13.8	64%	0.18
Documentos "mejorados" (2021-2022)	7.2	52%	0.29
Documentos con terminología de dominio	12.4	71%
Documentos con terminología simplificada	8.1	48%
Documentos con ejemplos	11.6	79%
Documentos sin ejemplos	9.3	43%

El patrón era claro: las cosas que mejoraban las puntuaciones de legibilidad a menudo perjudicaban la comprensión. Las oraciones más cortas a veces ayudaban, pero no siempre. Las palabras más simples frecuentemente empeoraban las cosas. La presencia de ejemplos concretos importaba más que cualquier puntuación.

Pero aquí está lo que realmente me sorprendió: los documentos que usaban la terminología adecuada del dominio (deducible, co-pago, máximo de gastos de bolsillo) tenían una mayor comprensión que los documentos que intentaban simplificar esos términos (la cantidad que pagas primero, tu pago en cada visita, lo máximo que pagarás).

🛠 Explora Nuestros Herramientas

TXT1 vs Cursor vs GitHub Copilot — Comparación de Herramientas de Código AI → Formato SQL & Beautifier — Herramienta Gratuita en Línea → Top 10 Consejos y Trucos para Desarrolladores →

¿Por qué? Porque las personas ya estaban encontrando estos términos en todas partes—de la oficina de su médico, de sus facturas, de su farmacia. Cuando usamos palabras diferentes, no estábamos aclarando las cosas. Estábamos creando un problema de traducción.

Las Fórmulas Ignoran el Contexto, y el Contexto Es Todo

Esto es lo que realmente miden las fórmulas de legibilidad: la longitud de las oraciones y el conteo de sílabas. Eso es todo. Flesch-Kincaid, Gunning Fog, SMOG—son todas variaciones sobre el mismo tema. Cuenta las palabras, cuenta las sílabas, haz algunos cálculos, obtén un nivel de grado.

Las fórmulas de legibilidad fueron inventadas en la década de 1940 para ayudar a los militares a redactar mejores manuales de capacitación. Fueron diseñadas para un mundo donde las personas leían de forma lineal, donde los documentos eran independientes, donde los lectores no tenían contexto previo. Ese mundo ya no existe.

Cuando alguien lee sus documentos de seguro de salud, no está comenzando desde cero. Han hablado con su médico. Han recibido facturas. Han llamado al servicio al cliente. Han buscado en Google sus síntomas. Están llegando con contexto, preguntas y necesidades de información específicas.

Una puntuación de legibilidad no puede tener en cuenta nada de eso.

Probé esto directamente. Tomé uno de nuestros documentos de cobertura de medicamentos recetados y creé tres versiones:

Versión A: Texto original, Grado 13.2, usó terminología estándar de farmacia

Versión B: Texto simplificado, Grado 7.8, reemplazó términos técnicos por lenguaje cotidiano

Versión C: Texto original más un glosario, Grado 13.2 para el texto principal

Mostré cada versión a personas que recientemente habían llenado una receta. La Versión A (la "difícil") tuvo una comprensión del 68%. La Versión B (la "fácil") tuvo una comprensión del 41%. La Versión C (mismo nivel de dificultad que A, pero con soporte) tuvo una comprensión del 84%.

La puntuación de legibilidad fue idéntica para A y C. Pero la comprensión saltó 16 puntos porcentuales solo al agregar contexto.

Este es el flanco fundamental: las fórmulas de legibilidad suponen que cada lector es el mismo y cada situación de lectura es la misma. No pueden tener en cuenta el conocimiento previo, la motivación, el contexto o el propósito. Tratan a un padre estresado tratando de averiguar si el medicamento de su hijo está cubierto igual que a un estudiante universitario leyendo un libro de texto.

Las Suposiciones Sobre el Lenguaje "Simple" A menudo Son Erróneas

La mayor mentira que cuentan las puntuaciones de legibilidad es que lo más simple siempre es mejor. No lo es.

Aprendí esto de la manera más difícil con nuestros documentos de cobertura de salud mental. Teníamos una oración que decía: "Los servicios ambulatorios de salud mental están cubiertos al 80% después de que cumplas con tu deducible."

Nivel de grado Flesch-Kincaid: 12.4. Nuestras herramientas señalaron "ambulatorio" (3 sílabas) y "deducible" (4 sílabas) como problemas.

Lo cambiamos a: "Las visitas de terapia regular están cubiertas. Nosotros pagamos 80%. Tú pagas 20%. Esto comienza después de que pagues tu primera cantidad."

Nivel de grado Flesch-Kincaid: 4.2. A nuestras herramientas les encantó.

Pero a los miembros no les gustó. ¿Por qué?

Primero, "visitas de terapia regular" es ambiguo. ¿Incluye psiquiatría? ¿Incluye intensi