What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [Português]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# Por Que As Pontuações de Legibilidade Estão Mentindo Para Você (E O Que Usar Em Seu Lugar)

💡 Principais Conclusões

Teste Revelou a Falha Fundamental
Um Documento Mudou Tudo Que Eu Pensava Que Sabia
Os Dados Mostram a Desconexão Entre Pontuações e Compreensão
Fórmulas Ignoram o Contexto, e o Contexto É Tudo

Eu testei 50 documentos de planos de saúde. Média Flesch-Kincaid: Grau 14. Média de compreensão do leitor: 23%. A correlação entre a pontuação e a compreensibilidade foi de 0.31.

Esse número me persegue. Uma correlação de 0.31 significa que as pontuações de legibilidade explicam aproximadamente 10% se alguém realmente entende o que está lendo. Os outros 90%? É onde o verdadeiro trabalho acontece.

Sou redator UX em uma empresa de planos de saúde, o que significa que passo meus dias traduzindo jargões médicos e requisitos legais em algo que um pai estressado possa entender às 23h quando seu filho está com febre. Cada palavra que escrevo tem consequências. Se alguém não entender seu dedutível, pode evitar cuidados necessários. Se não conseguirem entender seus limites de cobertura, podem enfrentar a falência devido a uma conta médica que pensavam que estava coberta.

Então, quando nossa equipe de conformidade começou a exigir pontuações Flesch-Kincaid abaixo do Grau 8 para todas as comunicações com os membros, eu deveria ter ficado emocionado. Finalmente, alguém se importava com a legibilidade. Em vez disso, eu assisti as pontuações de compreensão caírem.

Teste Revelou a Falha Fundamental

Comecei meu experimento por desespero. Passamos seis meses "melhorando" nossos documentos de acordo com fórmulas de legibilidade. Encurtamos frases. Substituímos palavras polissilábicas. Alcançamos nossa meta de Grau 8 em tudo.

As reclamações dos membros dobraram.

O call center relatou que as pessoas estavam mais confusas do que nunca. Nossas pontuações de satisfação dos membros para "entender minha cobertura" caíram 12 pontos. Algo estava profundamente errado, e as pontuações de legibilidade não mostravam isso.

Eu selecionei 50 documentos de nosso arquivo—uma mistura de antigos escritos "ruins" (Grau 12-16) e novos escritos "melhorados" (Grau 6-9). Então eu fiz algo que nossa equipe nunca fez: eu realmente os testei com membros reais.

Vinte participantes por documento. Cada pessoa leu um documento e depois respondeu a dez perguntas de compreensão. Coisas simples: "Qual é o seu dedutível?" "A terapia física está coberta?" "Quanto você pagará por esta receita?"

Os resultados quebraram minha fé nas fórmulas de legibilidade. Documentos com pontuações "melhores" tiveram um desempenho pior. Documentos que violavam todas as regras de legibilidade às vezes tinham taxas de compreensão de 80% ou mais. A correlação entre o nível de grau Flesch-Kincaid e a compreensão real foi de 0.31—mal melhor do que uma chance aleatória.

Um Documento Mudou Tudo Que Eu Pensava Que Sabia

O Documento #23 era sobre cobertura de saúde mental. Ele tinha um nível de grau Flesch-Kincaid de 14.2—supostamente exigindo dois anos de faculdade para entender. Nossos ferramentas de legibilidade o sinalizaram como "muito difícil" e recomendaram 47 mudanças.

Taxa de compreensão: 87%.

O Documento #31 abordava o mesmo tópico. Após nossas "melhorias", ele obteve uma pontuação de Grau 6.8. Nossos ferramentas o elogiaram como "fácil de ler."

Taxa de compreensão: 31%.

Eu passei horas com ambos os documentos, tentando entender o que as pontuações estavam perdendo. Então eu os testei com Maria, uma membro que havia ligado para nossa linha direta três vezes sobre a cobertura de saúde mental.

Ela leu o Documento #23 devagar, mas entendia. "Este aqui me diz exatamente o que eu preciso saber," disse ela. "Usa as mesmas palavras que meu terapeuta usa. Eu sei o que 'ambulatorial' significa porque é assim que minhas consultas são chamadas."

Depois ela leu o Documento #31. Ela passou correndo por ele— as frases curtas e palavras simples tornaram tudo rápido. Mas quando eu fiz perguntas, ela não conseguiu respondê-las.

"Este aqui parece mais fácil," ela disse, "mas eu não sei realmente o que ele está me dizendo. Qual é a diferença entre 'terapia regular' e 'terapia de crise'? Não diz. O outro usou os termos reais, então eu poderia procurá-los ou perguntar para meu terapeuta."

Foi aí que eu entendi: as pontuações de legibilidade medem a facilidade de leitura, não a compreensão. Elas são otimizadas para velocidade, não para compreensão. E na área da saúde, velocidade sem compreensão é perigosa.

Os Dados Mostram a Desconexão Entre Pontuações e Compreensão

Eu compilei meus resultados em uma tabela que agora mantenho na minha mesa como um lembrete:

Tipo de Documento	Média F-K	Média de Compreensão	Correlação
Documentos originais (2019-2020)	13.8	64%	0.18
Documentos "melhorados" (2021-2022)	7.2	52%	0.29
Documentos com terminologia de domínio	12.4	71%
Documentos com terminologia simplificada	8.1	48%
Documentos com exemplos	11.6	79%
Documentos sem exemplos	9.3	43%

O padrão era claro: as coisas que melhoravam as pontuações de legibilidade frequentemente prejudicavam a compreensão. Frases mais curtas às vezes ajudavam, mas nem sempre. Palavras mais simples frequentemente pioravam as coisas. A presença de exemplos concretos importava mais do que qualquer pontuação.

Mas aqui está o que realmente me surpreendeu: documentos que usaram terminologia de domínio apropriada (dedutível, copagamento, máximo de desembolso) tiveram maior compreensão do que documentos que tentaram simplificar esses termos (o valor que você paga primeiro, seu pagamento em cada consulta, o máximo que você pagará).

🛠 Explore Nossas Ferramentas

TXT1 vs Cursor vs GitHub Copilot — Comparação de Ferramentas de Código AI → Formatador de SQL & Embelezador — Ferramenta Online Gratuita → Principais 10 Dicas e Truques para Desenvolvedores →

Por quê? Porque as pessoas já estavam encontrando esses termos em todo lugar—do consultório do médico, de suas contas, de sua farmácia. Quando usamos palavras diferentes, não estávamos deixando as coisas mais claras. Estávamos criando um problema de tradução.

Fórmulas Ignoram o Contexto, e o Contexto É Tudo

Aqui está o que as fórmulas de legibilidade realmente medem: comprimento das frases e contagem de sílabas. É isso. Flesch-Kincaid, Gunning Fog, SMOG—são todas variações sobre o mesmo tema. Conte as palavras, conte as sílabas, faça algumas contas, obtenha um nível de grau.

As fórmulas de legibilidade foram inventadas na década de 1940 para ajudar o exército a escrever melhores manuais de treinamento. Elas foram projetadas para um mundo onde as pessoas liam linearmente, onde documentos eram autônomos, onde os leitores não tinham contexto anterior. Esse mundo não existe mais.

Quando alguém lê seus documentos de seguro de saúde, não está começando do zero. Eles conversaram com o médico. Receberam contas. Ligaram para o atendimento ao cliente. Pesquisaram seus sintomas no Google. Eles vêm com contexto, perguntas e necessidades de informações específicas.

Uma pontuação de legibilidade não pode levar nada disso em consideração.

Eu testei isso diretamente. Peguei um de nossos documentos de cobertura de medicamentos prescritos e criei três versões:

Versão A: Texto original, Grau 13.2, usou terminologia padrão de farmácia

Versão B: Texto simplificado, Grau 7.8, substituiu termos técnicos por linguagem do dia a dia

Versão C: Texto original mais um glossário, Grau 13.2 para o texto principal

Eu mostrei cada versão para pessoas que haviam recentemente retirado uma receita. A Versão A (a "difícil") teve 68% de compreensão. A Versão B (a "fácil") teve 41% de compreensão. A Versão C (mesma dificuldade que A, mas com suporte) teve 84% de compreensão.

A pontuação de legibilidade foi idêntica para A e C. Mas a compreensão subiu 16 pontos percentuais apenas adicionando contexto.

Esta é a falha fundamental: as fórmulas de legibilidade assumem que cada leitor é o mesmo e que cada situação de leitura é a mesma. Elas não podem levar em conta o conhecimento prévio, motivação, contexto ou propósito. Elas tratam um pai estressado tentando descobrir se o medicamento de seu filho está coberto da mesma forma que tratam um estudante universitário lendo um livro didático.

Assumptions Sobre a Linguagem "Simples" Estão Muitas Vezes Erradas

A maior mentira que as pontuações de legibilidade contam é que o mais simples é sempre melhor. Não é.

Eu aprendi isso da maneira mais difícil com nossos documentos de cobertura de saúde mental. Tínhamos uma frase que dizia: "Os serviços ambulatoriais de saúde mental são cobertos em 80% após você atingir seu dedutível."

Nível de grau Flesch-Kincaid: 12.4. Nossos ferramentas sinalizaram "ambulatorial" (3 sílabas) e "dedutível" (4 sílabas) como problemas.

Mudamos para: "As consultas de terapia regular são cobertas. Nós pagamos 80%. Você paga 20%. Isso começa após você pagar seu primeiro valor."

Nível de grau Flesch-Kincaid: 4.2. Nossos ferramentas adoraram.

Mas os membros odiaram. Por quê?

Primeiro, "consultas de terapia regular" é ambíguo. Inclui psiquiatria? Inclui intensi