왜 제가 직접 AI 감지기를 테스트하기로 결정했는가
위험 신호는 10월의 어느 화요일 오후 사무실 시간 동안 발생했습니다. 마리아라고 부를 학생이 제 책상 맞은편에 앉아 있었습니다. 그녀는 우리 대학의 AI 감지 시스템에서 출력된 인쇄된 보고서를 들고 손이 떨리고 있었습니다. 이 도구는 그녀의 개인 에세이—치매로 할머니를 돌보는 것에 대한 원초적이고 취약한 작품—을 "98% AI 생성 가능성"으로 표시했습니다. 저는 그 에세이를 읽었습니다. 세 번의 초안을 통해 발전하는 것을 지켜보았습니다. 저는 마리아가 그 기억을 종이에 옮기는 감정적 부담에 어려움을 겪는 것을 보았습니다. 그 에세이가 AI에 의해 작성됐다는 우주는 존재하지 않았습니다. 하지만 감지 도구는 disagreed했습니다. 그리고 우리 학과의 새로운 정책에 따르면, 80% 이상의 점수는 자동 학문적 무결성 조사를 촉발했습니다. 마리아는 혼자가 아니었습니다. 2주 동안 저는 비슷한 대화를 네 번 나누었습니다. 매번 저는 학생이 직접 작업했음을 확신했지만, 매번 감지기는 그와는 반대라고 말했습니다. 그리고 매번 제 전문적인 판단 외에는 알고리즘을 무효화할 수 있는 구체적인 증거가 없었습니다. 그것은 "편향되거나" "구식일 수 있다"는 말이었습니다. 그때 저는 이러한 도구를 신뢰하는 것을 중단하고 테스트하기로 결정했습니다. 저는 알고 싶었습니다: AI 글 감지기는 실제로 얼마나 정확한가? 그들의 마케팅 자료나 선택된 사례 연구에 따라가 아니라, 다양한 글 샘플로 실제 조건에서. 그들의 잘못된 긍정률은 얼마인가? 잘못된 부정률은 얼마나 되는가? 장르, 글쓰기 스타일 또는 인구 통계 그룹에 따라 성능이 다른가? 이 질문에 답할 연구를 설계했습니다. 저는 다른 학과의 동료들을 모집하고, 공공 도메인 소스에서 샘플을 추출하고, 여러 모델을 사용하여 AI 텍스트를 생성하고, 블라인드 테스트 프로토콜을 만들었습니다. 그런 다음 시장에서 가장 인기 있는 5개의 AI 감지 도구를 통해 모든 것을 실행했습니다. 결과는 험학적이었습니다.실험 구조화 방법
저는 단 하나의 샘플을 분석하기 전에 두 주 동안 방법론을 설계했습니다. 이것은 비공식적인 비교가 아니라, 제가 학술 연구에 적용할 동일한 조사를 견뎌야 했습니다. 먼저, 저는 다섯 개의 뚜렷한 장르에 걸쳐 127개의 텍스트 샘플을 모았습니다: 학술 에세이, 창의적 허구, 기술 작문, 저널리즘 및 개인 이야기. 각 장르는 대략 25개의 샘플로 나뉘어 인간이 작성한 콘텐츠와 AI 생성 콘텐츠가 균등하게 분할되었습니다. 인간이 작성한 샘플의 경우, 저는 다양한 출처를 혼합하여 사용했습니다. 역사적 텍스트에 대해 Project Gutenberg에서 발췌했습니다 (미국 헌법, 셰익스피어, 버지니아 울프의 발췌 포함). 저는 이전 학기에서 학생 에세이를 수집했습니다—허가를 받고 모든 식별 정보는 제거했습니다. 기사를 기고한 저널리스트 친구들에게 연락했습니다. 다른 스타일로 여러 샘플을 직접 작성하기도 했습니다. AI가 생성한 샘플의 경우, 저는 네 가지 다른 모델을 사용했습니다: GPT-3.5, GPT-4, Claude, 그리고 오픈 소스 모델. 다양한 프롬프트를 통해 포멀한 학술 문체에서부터 캐주얼한 블로그 게시물까지 다양한 글쓰기 스타일을 생성했습니다. 저는 AI 출력에서 상당히 편집한 "혼합" 샘플도 생성했습니다. 왜냐하면 그게 학생들이 실제로 하는 일이기 때문입니다. 그런 다음 중요한 부분이 왔습니다: 모든 것을 무작위화했습니다. 각 샘플에 코드 번호를 부여했습니다. 제가 접근할 수 있는 마스터 키를 만들었습니다. 제가 테스트를 실행할 때, 어떤 샘플이 어떤 것인지를 저도 알지 못했습니다—저의 연구 조교가 무의식적 편향을 막기 위해 실제 제출을 처리하도록 했습니다. 저는 인기도와 기관 채택을 기준으로 다섯 개의 AI 감지 도구를 선택했습니다: GPTZero, Originality.AI, Copyleaks, Writer.com's AI 감지기, 그리고 Turnitin의 AI 감지 기능. 저는 127개의 샘플 각각을 다섯 개의 감지기를 통해 실행하고, 그들의 신뢰도 점수와 이진 분류 (AI 또는 인간)를 기록했습니다. 테스트는 6일 걸렸습니다. 분석은 또 다른 주가 걸렸습니다. 그리고 제가 발견한 것은 이러한 도구들이 사용되어야 하는지 다시 생각하게 만들었습니다.샤익스피어를 AI로 표시하는 감지기를 보던 날
테스트 3일째에 제가 여전히 생각하는 일이 발생했습니다. 저는 감지기를 통해 샘플 #47을 실행하고 있었습니다—"햄릿"에서 발췌한 구절로, 명백한 고전어 패턴을 피하기 위해 약간 현대화한 내용입니다. 다시 쓰는 것이 아닌 단지 "thou"를 "you"로 바꾸고 몇 가지 동사 형태를 조정했습니다. GPTZero는 87% AI 확률로 결과를 보였습니다. 저는 화면을 바라보며 제가 보고 있는 것을 처리하려고 애쓰고 있었습니다. 이건 셰익스피어였습니다. 영어 문학에서 가장 많이 연구된 작가일 것입니다. 1616년에 세상을 떠난 사람으로, 신경망이 존재하기 전의 시대였습니다. 그리고 알고리즘은 그의 말이 기계에서 생성된 것이라고 확신했습니다—주저하지 않고, 확신했습니다. 저는 다시 실행해 보았습니다. 오류를 범했을 것이라 생각했습니다. 같은 결과였습니다. 그런 다음 원래의 현대화되지 않은 텍스트를 시도했습니다. 점수가 23%로 떨어졌습니다. 고전어 패턴이 이러한 감지기에게 "인간" 신호를 보내지만, 같은 아이디어의 현대 영어 버전은 "AI" 신호를 보낸다는 것을 보았습니다. 그때 저는 근본적인 문제를 이해했습니다: 이 도구들은 AI를 감지하지 못하고 있습니다. 그들은 AI와 연관된 패턴을 감지하고 있으며, 이는 종종 명확하고 잘 구조화된 인간 글쓰기에서 발견되는 패턴과 겹칩니다. 저는 계속해서 테스트를 진행했습니다. 샘플 #52는 미국 헌법의 전문에서 발췌한 단락이었습니다. Originality.AI는 이를 76% AI 생성 가능성으로 표시했습니다. 샘플 #61은 1987년 소프트웨어 가이드의 기술 매뉴얼 발췌본으로— 현대 AI가 존재하기 수십 년 전에 작성되었습니다. 5개 감지기 중 3개가 AI로 표시했습니다. 하지만 저를 진정으로 괴롭게 한 것은: 샘플 #73은 제가 최소한의 편집으로 GPT-4을 사용해 생성한 500단어 에세이였습니다. 저는 직설적이고 정보 전달 스타일로 기후 변화에 대해 작성해 달라고 요청했습니다. 모든 다섯 개의 감지기가 이를 인간 작성으로 표시했습니다. 가장 높은 AI 확률 점수는 31%였습니다. 패턴이 명확해졌습니다: 이러한 도구들은 예측 가능한 방식으로 체계적으로 잘못되었습니다. 이들은 공식적이고 잘 조직된 인간 글쓰기를 AI로 표시했습니다. 그들은 캐주얼한 또는 일부 미세한 결함이 있는 AI 생성 텍스트를 놓쳤습니다. 그리고 그들은 일관된 논리가 없었습니다—하나의 감지기가 표시한 것을 다른 감지기는 승인을 했습니다. 저는 마리아를 생각했습니다. 그녀는 제 사무실에서 눈물을 글썽이고 있었습니다. 얼마나 많은 다른 학생들이 너무 잘 썼다는 이유로 잘못된 고소를 당했을까요? 얼마나 많은 학생들이 명확하고 조직화된 글쓰기가 의심스럽다는 것을 배웠을까요?수치: 감지기와 장르별 정확도의 분포
모든 635개의 개별 테스트를 완료한 후 (127 샘플 × 5 감지기), 저는 결과를 포괄적인 데이터 세트로 정리했습니다. 수치가 밝혀낸 것은 다음과 같습니다:| 감지기 | 전체 정확도 | 잘못된 긍정률 | 잘못된 부정률 | 학술 | 창의적 | 기술 | 저널리즘 | 개인적 |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| 평균 | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
감지기회사가 말하지 않는 것들
제 초기 발견 사항을 교수 뉴스레터에 발표한 후, 제가 테스트한 다섯 개 회사 중 세 개로부터 이메일을 받았습니다. 두 개 회사는 저에게 그들의 기술을 "더 잘 이해할 수 있도록" 도와주겠다고 제안했습니다. 한 회사는 제가 결과를 널리 발표할 경우 법적 조치를 취하겠다고 위협하며, 제 방법론이 결함이 있다고 주장했습니다. 그 응답은 제가 알아야 할 모든 것을 말해주었습니다. 저는 이러한 회사들이 어떻게 제품을 마케팅하는지 그리고 실제로 무엇을 제공하는지를 조사하기 시작했습니다. 그 불일치는 엄청났습니다."우리의 AI 감지 모델은 99% 정확도를 달성하며 잘못된 긍정률은 0.2% 미만입니다," 한 회사가 주장했습니다.