What about testing revealed the fundamental flaw?

I started my experiment out of desperation. We'd spent six months "improving" our documents according to readability formulas. We shortened sentences. We replaced polysyllabic words. We hit our Grade 8 target on everything.

What about one document changed everything i thought i knew?

Document #23 was about mental health coverage. It had a Flesch-Kincaid grade level of 14.2—supposedly requiring two years of college to understand. Our readability tools flagged it as "very difficult" and recommended 47 changes.

What about data shows the disconnect between scores and understanding?

I compiled my results into a table that I now keep on my desk as a reminder:

What about formulas ignore context, and context is everything?

Here's what readability formulas actually measure: sentence length and syllable count. That's it. Flesch-Kincaid, Gunning Fog, SMOG—they're all variations on the same theme. Count the words, count the syllables, do some math, get a grade level.

What about assumptions about "simple" language are often wrong?

The biggest lie readability scores tell is that simpler is always better. It's not.

Why Readability Scores Are Lying to You (And What to Use Instead) [한국어]

💡 Key Takeaways

Testing Revealed the Fundamental Flaw
One Document Changed Everything I Thought I Knew
Data Shows the Disconnect Between Scores and Understanding
Formulas Ignore Context, and Context Is Everything

# 가독성 점수가 당신에게 거짓말을 하는 이유 (그리고 대신 사용할 것)

💡 주요 내용

테스트가 근본적인 결함을 드러냈다
한 문서가 내가 알고 있던 모든 것을 바꿨다
데이터가 점수와 이해 간의 괴리를 보여준다
공식은 맥락을 무시하며, 맥락이 전부다

나는 건강 보험 문서 50개를 테스트했다. 평균 Flesch-Kincaid: 14학년. 평균 독자 이해도: 23%. 점수와 이해도 간의 상관관계는 0.31이었다.

그 숫자는 나를 괴롭혔다. 0.31의 상관관계는 가독성 점수가 누군가가 실제로 읽고 이해하는지 여부를 대략 10% 정도 설명한다는 의미다. 나머지 90%? 그게 진짜 작업이 이루어지는 부분이다.

나는 건강 보험 회사의 UX 작가로, 이는 내가 11시 PM에 아이가 열이 나서 고통받는 부모가 이해할 수 있도록 의학 용어와 법적 요구 사항을 번역하는 데 하루를 보낸다는 것을 의미한다. 내가 쓴 모든 단어는 결과를 초래한다. 누군가가 자신의 공제액을 잘못 이해하면, 필수 치료를 피할 수 있다. 만약 그들이 자신의 보장 한도를 해석하지 못하면, 그들은 보장이 된 줄 알았던 의료비로 파산에 직면할 수 있다.

그래서 우리 규정 준수 팀이 모든 회원 커뮤니케이션에 대해 Flesch-Kincaid 8학년 이하를 의무화하기 시작했을 때, 나는 신이 나야 했다. 드디어 누군가가 가독성에 관심을 가지게 된 것일까. 대신, 나는 이해 점수가 떨어지는 것을 지켜보았다.

테스트가 근본적인 결함을 드러냈다

나는 절박함에서 실험을 시작했다. 우리는 가독성 공식을 기준으로 문서를 "개선"하는 데 여섯 달을 소비했다. 우리는 문장을 짧게 했다. 우리는 다음 음절로 이루어진 단어를 대체했다. 우리는 모든 문서에서 8학년 목표를 달성했다.

회원 불만이 두 배로 늘어났다.

콜 센터는 사람들이 그 어느 때보다 더 혼란스러워하고 있다고 보고했다. "내 보장을 이해하는 것"에 대한 우리의 회원 만족도 점수는 12점 하락했다. 무언가가 깊이 잘못되어 있었고, 가독성 점수는 이를 나타내지 않았다.

나는 우리 아카이브에서 50개의 문서를 추출했다—오래된 "나쁜" 글쓰기(12-16학년)와 새로운 "개선된" 글쓰기(6-9학년)의 혼합이다. 그런 다음 나는 우리 팀이 한 번도 하지 않았던 일을 했다: 나는 실제 회원들과 함께 테스트를 했다.

문서당 20명의 참가자. 각 참가자는 문서를 읽고 열 개의 이해도 질문에 답변했다. 간단한 내용: "당신의 공제액은 얼마입니까?" "물리 치료는 보장됩니까?" "이 처방약은 얼마를 지불해야 하나요?"

결과는 나의 가독성 공식 대한 신념을 무너뜨렸다. "더 나은" 점수를 가진 문서가 더 나쁜 성과를 보였다. 모든 가독성 규칙을 위반한 문서가 때때로 80% 이상의 이해도를 보였다. Flesch-Kincaid 학년 수준과 실제 이해도 간의 상관관계는 0.31로 무작위 확률보다 약간 나은 수준이었다.

한 문서가 내가 알고 있던 모든 것을 바꿨다

문서 #23은 정신 건강 보장에 관한 것이었다. 그것은 Flesch-Kincaid 학년 수준이 14.2—이해하려면 2년의 대학 교육이 필요하다고 여겨진다. 우리의 가독성 도구는 그것을 "매우 어렵다"고 표시하고 47개의 변경을 추천했다.

이해도: 87%.

문서 #31은 같은 주제를 다루었다. 우리의 "개선" 후 그것은 6.8학년으로 평가되었다. 우리의 도구는 그것을 "읽기 쉬운" 것으로 칭찬했다.

이해도: 31%.

나는 두 문서와 몇 시간 동안 앉아 있었고, 점수가 무엇을 놓치고 있는지 이해하려고 노력했다. 그런 다음, 나는 정신 건강 보장에 대해 우리 핫라인에 세 번이나 전화한 회원인 마리아와 함께 테스트를 했다.

그녀는 문서 #23을 천천히 읽었지만 이해했다. "이 문서는 내가 알아야 할 것을 정확히 말해줘," 그녀가 말했다. "내 치료사가 사용하는 단어와 똑같은 단어를 사용하고 있어. 나는 '외래 환자'가 무슨 뜻인지 알고 있어, 왜냐하면 내 예약이 그렇게 불리기 때문이야."

그녀는 문서 #31을 읽었다. 그녀는 그것을 빠르게 읽었고—짧은 문장과 간단한 단어는 그것을 빠르게 만들었다. 그러나 내가 질문을 했을 때, 그녀는 대답할 수 없었다.

"이 문서는 더 쉬운 느낌이 들어," 그녀가 말했다, "그러나 나는 실제로 무엇을 말하고 있는지 모른다. '정기 치료'와 '위기 치료'의 차이는 뭐지? 그것은 명시하지 않는다. 다른 문서는 실제 용어를 사용했고, 그래서 나는 그것들을 검색하거나 나의 치료사에게 물어볼 수 있었다."

그때 나는 이해했다: 가독성 점수는 읽기의 용이성을 측정하고, 이해도를 측정하지 않는다. 그것들은 속도를 위해 최적화되어 있고, 이해도를 위해 최적화되어 있지 않다. 그리고 의료 분야에서, 이해 없이 속도는 위험하다.

데이터가 점수와 이해 간의 괴리를 보여준다

나는 결과를 테이블로 정리하여 지금은 책상 위에 두고 있다:

문서 유형	평균 F-K 학년	평균 이해도	상관관계
원본 문서 (2019-2020)	13.8	64%	0.18
"개선된" 문서 (2021-2022)	7.2	52%	0.29
전문 용어가 포함된 문서	12.4	71%
단순화된 용어가 포함된 문서	8.1	48%
예제가 포함된 문서	11.6	79%
예제가 없는 문서	9.3	43%

패턴은 분명했다: 가독성 점수를 향상시키는 것들은 종종 이해도를 해친다. 짧은 문장들이 때때로 도움이 되지만, 항상 그런 것은 아니다. 단순한 단어들은 자주 상황을 악화시켰다. 구체적인 예의 존재는 어떤 점수보다 더 중요했다.

하지만 정말 충격적이었던 것은: 적절한 전문 용어(공제액, 본인 부담금, 최대 본인 부담금)를 사용한 문서가 그 용어들을 단순화하려고 한 문서보다 더 높은 이해도를 보였다.

🛠 우리의 도구를 탐색하세요

TXT1 vs Cursor vs GitHub Copilot — AI 코드 도구 비교 → SQL 포매터 및 미화 도구 — 무료 온라인 도구 → 개발자를 위한 최고의 10가지 팁과 요령 →

왜일까? 사람들은 이미 의사 사무실, 청구서, 약국 등에서 이러한 용어를 어디서든 만났기 때문이다. 우리가 다른 단어를 사용했을 때, 우리는 명확하게 만들지 않았다. 우리는 번역 문제를 만들었다.

공식은 맥락을 무시하며, 맥락이 전부다

가독성 공식이 실제로 측정하는 것은: 문장 길이와 음절 수이다. 그게 전부다. Flesch-Kincaid, Gunning Fog, SMOG—모두 같은 주제의 변형이다. 단어를 세고, 음절을 세고, 수학을 하고, 학년 수준을 산출한다.

가독성 공식은 1940년대에 군대가 더 나은 훈련 매뉴얼을 작성하도록 돕기 위해 발명되었다. 이 공식은 사람들이 선형으로 읽고 문서가 독립적이며 독자가 이전의 맥락이 없는 세상을 위해 설계되었다. 그런 세계는 더 이상 존재하지 않는다.

누군가 그들의 건강 보험 문서를 읽을 때, 그들은 제로에서 시작하지 않는다. 그들은 의사와 이야기한 적이 있다. 그들은 청구서를 받았다. 그들은 고객 서비스에 전화를 걸었다. 그들은 증상에 대해 구글링했다. 그들은 맥락, 질문 및 특정 정보 요구를 갖고 들어온다.

가독성 점수는 그 어떤 것도 고려할 수 없다.

나는 이를 직접 테스트했다. 나는 우리의 처방약 보장 문서 중 하나를 가져와 세 가지 버전을 만들었다:

버전 A: 원본 텍스트, 13.2 학년, 표준 약국 용어 사용

버전 B: 간단한 텍스트, 7.8 학년, 기술 용어를 일상 언어로 대체

버전 C: 원본 텍스트에 용어집 포함, 원본 텍스트는 13.2 학년

나는 각각의 버전을 최근에 처방전을 작성한 사람들에게 보여주었다. 버전 A(“어려운” 것)는 68%의 이해도를 기록했다. 버전 B(“쉬운” 것)는 41%의 이해도를 기록했다. 버전 C(버전 A와 같은 난이도지만 지원 포함)는 84%의 이해도를 기록했다.

가독성 점수는 A와 C에 대해 동일했다. 그러나 맥락을 추가하기만 해도 이해도가 16% 포인트 상승했다.

이것이 근본적인 결함이다: 가독성 공식은 모든 독자가 같고 모든 읽기 상황이 같다고 가정한다. 그것들은 사전 지식, 동기, 맥락 또는 목적을 고려할 수 없다. 그것들은 자녀의 약물이 보장되는지 확인하려는 스트레스를 받는 부모를 대학 교과서를 읽는 대학생과 동일하게 취급한다.

"간단한" 언어에 대한 가정은 종종 잘못된다

가독성 점수가 가장 많이 하는 거짓말은 간단함이 항상 더 낫다는 것이다. 그렇지 않다.

나는 정신 건강 보험 문서에서 이 사실을 힘겹게 배웠다. 우리는 다음과 같은 문장을 작성했다: "외래 정신 건강 서비스는 공제액을 충족한 후 80% 보장됩니다."

Flesch-Kincaid 학년 수준: 12.4. 우리의 도구는 "외래" (3 음절)와 "공제액" (4 음절)을 문제로 지적했다.

우리는 그것을 다음과 같이 변경했다: "정기 치료 방문은 보장됩니다. 우리는 80%를 지불합니다. 당신은 20%를 지불합니다. 이것은 첫 금액을 지불한 후에 시작됩니다."

Flesch-Kincaid 학년 수준: 4.2. 우리의 도구는 그것을 좋아했다.

그러나 회원들은 그것을 싫어했다. 왜일까?

첫째, "정기 치료 방문"은 모호하다. 정신과 치료를 포함하는가? 이것은 여기에서 끝나지 않았다.