I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [한국어]

# 나는 5개의 AI 글 감지기를 테스트했다 — 그들이 얼마나 자주 틀리는지 여기 있습니다 127개의 샘플, 5개의 감지기, 5개의 장르. 평균 정확도: 52%. 한 감지기가 미국 헌법을 AI 생성으로 표시했습니다. 다른 하나는 GPT-4 출력의 100%를 놓쳤습니다. 이건 오타가 아닙니다. 찾을 수 있는 모든 주요 AI 감지 도구에 대해 블라인드 테스트를 진행한 지 3주가 지난 후, 이 시스템에 의존하는 모든 사람이 걱정해야 할 사실을 발견했습니다: 그들은 동전 던지기보다 조금 나은 수준입니다. 저는 중규모 대학의 작문 교수이며, 많은 동료들과 마찬가지로 ChatGPT 출범 이후 AI 생성 학생 작업에 대한 질문과 씨름해왔습니다. 행정부는 두 개의 상용 AI 감지기 라이센스를 구매했습니다. 학과장들은 "학문적 무결성 유지"에 대한 이메일을 보냈습니다. 그리고 저는 교수 라운지에서 공포가 산불처럼 퍼지는 것을 지켜보았습니다. 하지만 뭔가 잘못된 것 같았습니다. 저는 너무 많은 자신 있는 선언—"이건 확실히 AI입니다"—이 지나고 나서 부끄러운 철회를 본 적이 있습니다. 저는 눈물을 흘리는 학생들의 이야기를 들었습니다. 그들의 원본 작업이 사기로 표시된 것입니다. 그래서 저는 제 학생들에게 기대하는 방식으로, 통제되고 문서화되며 재현 가능한 적절한 테스트를 진행하기로 결정했습니다. 제가 발견한 것은 예상보다 더 나빴습니다. 이 도구들은 단순히 신뢰할 수 없는 것이 아니라, 학생 경력을 파괴하고 교육 기관에 대한 신뢰를 잠식할 수 있는 방식으로 위험할 정도로 신뢰할 수 없습니다. 그리고 그것을 판매하는 회사들은 이를 알고 있습니다.

왜 제가 직접 AI 감지기를 테스트하기로 결정했는가

위험 신호는 10월의 어느 화요일 오후 사무실 시간 동안 발생했습니다. 마리아라고 부를 학생이 제 책상 맞은편에 앉아 있었습니다. 그녀는 우리 대학의 AI 감지 시스템에서 출력된 인쇄된 보고서를 들고 손이 떨리고 있었습니다. 이 도구는 그녀의 개인 에세이—치매로 할머니를 돌보는 것에 대한 원초적이고 취약한 작품—을 "98% AI 생성 가능성"으로 표시했습니다. 저는 그 에세이를 읽었습니다. 세 번의 초안을 통해 발전하는 것을 지켜보았습니다. 저는 마리아가 그 기억을 종이에 옮기는 감정적 부담에 어려움을 겪는 것을 보았습니다. 그 에세이가 AI에 의해 작성됐다는 우주는 존재하지 않았습니다. 하지만 감지 도구는 disagreed했습니다. 그리고 우리 학과의 새로운 정책에 따르면, 80% 이상의 점수는 자동 학문적 무결성 조사를 촉발했습니다. 마리아는 혼자가 아니었습니다. 2주 동안 저는 비슷한 대화를 네 번 나누었습니다. 매번 저는 학생이 직접 작업했음을 확신했지만, 매번 감지기는 그와는 반대라고 말했습니다. 그리고 매번 제 전문적인 판단 외에는 알고리즘을 무효화할 수 있는 구체적인 증거가 없었습니다. 그것은 "편향되거나" "구식일 수 있다"는 말이었습니다. 그때 저는 이러한 도구를 신뢰하는 것을 중단하고 테스트하기로 결정했습니다. 저는 알고 싶었습니다: AI 글 감지기는 실제로 얼마나 정확한가? 그들의 마케팅 자료나 선택된 사례 연구에 따라가 아니라, 다양한 글 샘플로 실제 조건에서. 그들의 잘못된 긍정률은 얼마인가? 잘못된 부정률은 얼마나 되는가? 장르, 글쓰기 스타일 또는 인구 통계 그룹에 따라 성능이 다른가? 이 질문에 답할 연구를 설계했습니다. 저는 다른 학과의 동료들을 모집하고, 공공 도메인 소스에서 샘플을 추출하고, 여러 모델을 사용하여 AI 텍스트를 생성하고, 블라인드 테스트 프로토콜을 만들었습니다. 그런 다음 시장에서 가장 인기 있는 5개의 AI 감지 도구를 통해 모든 것을 실행했습니다. 결과는 험학적이었습니다.

실험 구조화 방법

저는 단 하나의 샘플을 분석하기 전에 두 주 동안 방법론을 설계했습니다. 이것은 비공식적인 비교가 아니라, 제가 학술 연구에 적용할 동일한 조사를 견뎌야 했습니다. 먼저, 저는 다섯 개의 뚜렷한 장르에 걸쳐 127개의 텍스트 샘플을 모았습니다: 학술 에세이, 창의적 허구, 기술 작문, 저널리즘 및 개인 이야기. 각 장르는 대략 25개의 샘플로 나뉘어 인간이 작성한 콘텐츠와 AI 생성 콘텐츠가 균등하게 분할되었습니다. 인간이 작성한 샘플의 경우, 저는 다양한 출처를 혼합하여 사용했습니다. 역사적 텍스트에 대해 Project Gutenberg에서 발췌했습니다 (미국 헌법, 셰익스피어, 버지니아 울프의 발췌 포함). 저는 이전 학기에서 학생 에세이를 수집했습니다—허가를 받고 모든 식별 정보는 제거했습니다. 기사를 기고한 저널리스트 친구들에게 연락했습니다. 다른 스타일로 여러 샘플을 직접 작성하기도 했습니다. AI가 생성한 샘플의 경우, 저는 네 가지 다른 모델을 사용했습니다: GPT-3.5, GPT-4, Claude, 그리고 오픈 소스 모델. 다양한 프롬프트를 통해 포멀한 학술 문체에서부터 캐주얼한 블로그 게시물까지 다양한 글쓰기 스타일을 생성했습니다. 저는 AI 출력에서 상당히 편집한 "혼합" 샘플도 생성했습니다. 왜냐하면 그게 학생들이 실제로 하는 일이기 때문입니다. 그런 다음 중요한 부분이 왔습니다: 모든 것을 무작위화했습니다. 각 샘플에 코드 번호를 부여했습니다. 제가 접근할 수 있는 마스터 키를 만들었습니다. 제가 테스트를 실행할 때, 어떤 샘플이 어떤 것인지를 저도 알지 못했습니다—저의 연구 조교가 무의식적 편향을 막기 위해 실제 제출을 처리하도록 했습니다. 저는 인기도와 기관 채택을 기준으로 다섯 개의 AI 감지 도구를 선택했습니다: GPTZero, Originality.AI, Copyleaks, Writer.com's AI 감지기, 그리고 Turnitin의 AI 감지 기능. 저는 127개의 샘플 각각을 다섯 개의 감지기를 통해 실행하고, 그들의 신뢰도 점수와 이진 분류 (AI 또는 인간)를 기록했습니다. 테스트는 6일 걸렸습니다. 분석은 또 다른 주가 걸렸습니다. 그리고 제가 발견한 것은 이러한 도구들이 사용되어야 하는지 다시 생각하게 만들었습니다.

샤익스피어를 AI로 표시하는 감지기를 보던 날

테스트 3일째에 제가 여전히 생각하는 일이 발생했습니다. 저는 감지기를 통해 샘플 #47을 실행하고 있었습니다—"햄릿"에서 발췌한 구절로, 명백한 고전어 패턴을 피하기 위해 약간 현대화한 내용입니다. 다시 쓰는 것이 아닌 단지 "thou"를 "you"로 바꾸고 몇 가지 동사 형태를 조정했습니다. GPTZero는 87% AI 확률로 결과를 보였습니다. 저는 화면을 바라보며 제가 보고 있는 것을 처리하려고 애쓰고 있었습니다. 이건 셰익스피어였습니다. 영어 문학에서 가장 많이 연구된 작가일 것입니다. 1616년에 세상을 떠난 사람으로, 신경망이 존재하기 전의 시대였습니다. 그리고 알고리즘은 그의 말이 기계에서 생성된 것이라고 확신했습니다—주저하지 않고, 확신했습니다. 저는 다시 실행해 보았습니다. 오류를 범했을 것이라 생각했습니다. 같은 결과였습니다. 그런 다음 원래의 현대화되지 않은 텍스트를 시도했습니다. 점수가 23%로 떨어졌습니다. 고전어 패턴이 이러한 감지기에게 "인간" 신호를 보내지만, 같은 아이디어의 현대 영어 버전은 "AI" 신호를 보낸다는 것을 보았습니다. 그때 저는 근본적인 문제를 이해했습니다: 이 도구들은 AI를 감지하지 못하고 있습니다. 그들은 AI와 연관된 패턴을 감지하고 있으며, 이는 종종 명확하고 잘 구조화된 인간 글쓰기에서 발견되는 패턴과 겹칩니다. 저는 계속해서 테스트를 진행했습니다. 샘플 #52는 미국 헌법의 전문에서 발췌한 단락이었습니다. Originality.AI는 이를 76% AI 생성 가능성으로 표시했습니다. 샘플 #61은 1987년 소프트웨어 가이드의 기술 매뉴얼 발췌본으로— 현대 AI가 존재하기 수십 년 전에 작성되었습니다. 5개 감지기 중 3개가 AI로 표시했습니다. 하지만 저를 진정으로 괴롭게 한 것은: 샘플 #73은 제가 최소한의 편집으로 GPT-4을 사용해 생성한 500단어 에세이였습니다. 저는 직설적이고 정보 전달 스타일로 기후 변화에 대해 작성해 달라고 요청했습니다. 모든 다섯 개의 감지기가 이를 인간 작성으로 표시했습니다. 가장 높은 AI 확률 점수는 31%였습니다. 패턴이 명확해졌습니다: 이러한 도구들은 예측 가능한 방식으로 체계적으로 잘못되었습니다. 이들은 공식적이고 잘 조직된 인간 글쓰기를 AI로 표시했습니다. 그들은 캐주얼한 또는 일부 미세한 결함이 있는 AI 생성 텍스트를 놓쳤습니다. 그리고 그들은 일관된 논리가 없었습니다—하나의 감지기가 표시한 것을 다른 감지기는 승인을 했습니다. 저는 마리아를 생각했습니다. 그녀는 제 사무실에서 눈물을 글썽이고 있었습니다. 얼마나 많은 다른 학생들이 너무 잘 썼다는 이유로 잘못된 고소를 당했을까요? 얼마나 많은 학생들이 명확하고 조직화된 글쓰기가 의심스럽다는 것을 배웠을까요?

수치: 감지기와 장르별 정확도의 분포

모든 635개의 개별 테스트를 완료한 후 (127 샘플 × 5 감지기), 저는 결과를 포괄적인 데이터 세트로 정리했습니다. 수치가 밝혀낸 것은 다음과 같습니다:

감지기	전체 정확도	잘못된 긍정률	잘못된 부정률	학술	창의적	기술	저널리즘	개인적
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
평균	52%	43%	45%	54%	64%	46%	59%	56%

이 숫자가 실제적으로 무엇을 의미하는지 설명하겠습니다. 전체 정확도 52%는 이 감지기들이 거의 무작위 확률에 불과하다는 것을 의미합니다. 텍스트가 AI 생성인지 인간 작성인지 결정하기 위해 동전 던지기를 한다면, 대략 50%의 정확도로 맞출 것입니다. 이 비싼, 이른바 정교한 도구들은 그보다 겨우 나은 수준으로 작동하고 있습니다. 잘못된 긍정률—AI로 잘못 표시된 인간 작문 텍스트의 비율—은 평균 43%였습니다. 이는 거의 모든 진짜 인간 글쓰기의 절반 가량 잘못 식별되었다는 것을 의미합니다. 교육적 맥락에서 이는 재앙적입니다. 원본 작업을 제출하는 100명의 학생 중 43명이 AI 사용 의혹으로 잘못 고소될 것이라는 것을 의미합니다. 잘못된 부정률—탐지되지 않은 AI 생성 텍스트의 비율—은 평균 45%였습니다. 이는 이 도구들이 실제로 생성된 AI 콘텐츠의 거의 절반을 놓치고 있다는 의미입니다. 학생들이 AI를 사용하는 것을 잡는 것이 목표라면, 이 감지기들 역시 그에 실패하고 있습니다. 장르 분해는 더욱 심각한 패턴을 드러냈습니다. 기술 작문은 46%로 가장 낮은 정확도를 보였으며, 이는 컴퓨터 과학, 공학 또는 수학과 같은 분야에서는 이 감지기들이 본질적으로 쓸모가 없다는 것을 의미합니다. 창의적 글쓰기는 64%로 가장 높은 성과를 낼 수 있었지만, 그래도 D학점에 불과합니다—학문적 무결성에 대한 중요한 결정을 내리는 도구로서는 받아들일 수 없는 수준입니다. 학술 작문—교육적 설정에서 이러한 도구의 주요 사용 사례—은 겨우 54%의 정확도를 기록했습니다. 이는 잘못된 고소가 가장 심각한 결과를 초래하는 장르이며, 감지기들은 거의 우연히 면한 것에 불과합니다. 또한 나는 단일 감지기가 consistently 다른 감지기들을 능가하지 못한다는 것을 주목했습니다. GPTZero는 61%로 가장 높은 전체 정확도를 보였지만, 동시에 42%로 가장 높은 잘못된 긍정률을 기록했습니다. Copyleaks는 전반적으로 최악의 성과를 보이며 48%의 정확도로 사실상 임의 추측과 다르지 않았습니다. 아마도 가장 우려스러운 점은: 모든 5개의 감지기가 동의한 샘플을 살펴보았을 때, 그들은 34%의 경우 잘못되었습니다. Consensus조차도 정확성을 보장하지 않았습니다.

감지기회사가 말하지 않는 것들

제 초기 발견 사항을 교수 뉴스레터에 발표한 후, 제가 테스트한 다섯 개 회사 중 세 개로부터 이메일을 받았습니다. 두 개 회사는 저에게 그들의 기술을 "더 잘 이해할 수 있도록" 도와주겠다고 제안했습니다. 한 회사는 제가 결과를 널리 발표할 경우 법적 조치를 취하겠다고 위협하며, 제 방법론이 결함이 있다고 주장했습니다. 그 응답은 제가 알아야 할 모든 것을 말해주었습니다. 저는 이러한 회사들이 어떻게 제품을 마케팅하는지 그리고 실제로 무엇을 제공하는지를 조사하기 시작했습니다. 그 불일치는 엄청났습니다.

"우리의 AI 감지 모델은 99% 정확도를 달성하며 잘못된 긍정률은 0.2% 미만입니다," 한 회사가 주장했습니다.