ChatGPT vs Human Writing: Can You Tell the Difference? [한국어]

# ChatGPT와 인간 글쓰기: 차이를 구별할 수 있나요? 200명의 독자, 40개의 텍스트 샘플, 5개의 장르. 평균 탐지 정확도: 52%. 동전 던지기보다 겨우 나은 수준. 하지만 한 장르는 패턴을 완전히 깨뜨렸습니다. 저는 15년 동안 창의적 글쓰기를 가르쳐 왔고, 지난 학기에는 제가 제 작업에 대해 알고 있다고 생각했던 모든 것을 의문시하게 만든 일을 했습니다. 저는 40개의 글쓰기 샘플을 수집했습니다—20개는 제 학생들이 작성한 것이고, 20개는 동일한 프롬프트를 사용하여 ChatGPT가 생성한 것입니다—그리고 200명의 자원봉사자에게 어떤 것이 어떤 것인지 구별해 달라고 요청했습니다. 이들은 무작위 인터넷 사용자들이 아니었습니다; 그들은 동료 교수들, 출판된 작가들, 편집자들, 그리고 고급 글쓰기 학생들이었습니다. 글쓰기를 직업으로 삼는 사람들. 결과는 저를 사흘 밤낮을 지새우게 했습니다.

저의 글쓰기 교육 방식을 변화시킨 실험

이 이야기는 사무실 시간 동안 한 학생의 고백으로 시작되었습니다. 저의 가장 뛰어난 작가 중 한 명인 Sarah는 과제를 "시작하기 위해" ChatGPT를 사용하고 있다고 인정했습니다. 속이기 위한 것이 아니라, 공백 페이지의 마비를 극복하기 위한 것이라고 주장했습니다. 그녀는 초안을 생성한 다음, 그것을 완전히 자신의 목소리로 다시 작성했습니다. 최종 결과물은 부인할 수 없이 그녀의 것이었습니다—저는 이 점을 걸고도 내기를 했을 것입니다. 하지만 저는 궁금해졌습니다: 만약 Sarah가 AI 글쓰기를 진정으로 인간적인 것으로 변형할 수 있다면, 제가 그 차이를 구별할 수 있을까요? 그리고 만약 제가 구별할 수 없다면, 이는 학생들의 작업을 평가하는 방식에 어떤 의미가 있을까요? 저는 블라인드 테스트를 설계했습니다. 다섯 개의 장르: 학술 에세이, 창작 소설, 비즈니스 이메일, 개인 서사, 그리고 시. 각 장르마다, 저는 학생들로부터 네 개의 인간 샘플(허가를 받은)과 ChatGPT-4를 사용하여 네 개의 AI 샘플을 생성했습니다. 저는 AI에게 학생들에게 제공한 것과 동일한 프롬프트를 주었으며, 단어 수와 특정 요구사항도 포함했습니다. 그 다음 저는 200명의 참가자를 모집했습니다: 80명은 제 학교의 영어학과에서, 60명은 지역 작가 그룹에서, 40명은 전문 편집자들, 그리고 20명은 출판된 작가들입니다. 각 참가자는 모든 40개의 샘플을 랜덤 방식으로 배치받아 장르와 번호로만 레이블이 붙었습니다. 그들의 임무는 간단했습니다: 각 샘플을 "인간" 또는 "AI"로 표시하는 것이었습니다. 저는 제 동료들이 이 테스트에서 뛰어난 성과를 낼 것이라고 예상했습니다. 우리는 목소리, 진정성, 인간의 생각의 미세한 표시를 감지하는 훈련을 받았습니다. 우리는 학생들이 그들의 독창적인 관점을 개발하도록 가르치며 경력을 쌓아왔습니다. 우리는 매우 실망스럽게도 실패했습니다.

방법론: 200명의 독자 테스트 방법

이 실험은 봄 학기 동안 6주간 진행되었습니다. 저는 엄격한 조건을 원했기에, 엄격한 프로토콜을 정했습니다. 인간 샘플을 위해, 저는 AI 도구를 사용한 적이 없는 학생들의 작업을 선택했습니다(인터뷰와 디지털 포렌식을 통해 검증). 저는 서로 다른 기술 수준을 나타내는 작품을 선택했습니다—어떤 것은 다듬어졌고, 어떤 것은 거칠며, 모두 진정성이 있었습니다. 저는 다양한 인구 통계의 학생들, 즉 본국 언어 화자와 비화자, 다양한 연령대, 다양한 문화적 배경의 작업을 포함했습니다. AI 샘플을 위해, 저는 실제 과제 지침을 모방하는 세심하게 제작된 프롬프트로 ChatGPT-4를 사용했습니다. 저는 출력을 선별하지 않았습니다. AI가 첫 번째 시도에서 생성한 것이 시험에 들어갔습니다. 수정도, 재생성도, 인간의 손길도 없었습니다. 각 참가자는 모든 40개의 샘플이 포함된 디지털 패킷을 받았습니다. 그들은 자신의 평가를 완료하는데 두 주의 시간이 주어졌습니다. 저는 그들이 혼자 작업하되, 다른 사람과 샘플에 대해 논의하지 말고, 각 판단에 대한 확신 수준을 1-5의 척도로 기록하라고 요청했습니다. 저는 또한 인구 통계 데이터를 수집했습니다: 글쓰기 경험 년수, AI 도구를 사용한 적이 있는지, 그들의 주요 장르 전문성, 그리고 AI에 대한 일반적인 태도(긍정적, 중립적 또는 부정적). 샘플은 각각 200에서 500단어 사이였습니다. 목소리와 스타일을 설정하기에 충분히 길고 참가자들이 지치지 않기에 충분히 짧았습니다. 저는 피로 편향을 방지하기 위해 각 참가자의 순서를 무작위로 지정했습니다—아무도 같은 순서로 샘플을 보지 않았습니다. 그들이 평가를 제출한 후, 저는 그들에게 결정하는 데 사용한 단서를 설명해 달라는 후속 설문지를 보냈습니다. 무엇이 인간적인지 또는 인공적인지를 "느끼게" 했는지? 이 질적 데이터는 숫자만큼이나 revealing하게 나타났습니다.

모든 것에 의문을 제기하게 만든 학생

데이터를 공유하기 전에, Marcus에 대해 이야기해야 합니다. Marcus는 저의 고급 작문 수업의 3학년 학생으로, 컴퓨터 과학 전공자입니다. 독특하고 방법론적인 성격으로, 다음 단락으로 넘어가기 전에 단 한 문단을 일곱 번 수정하는 유형의 학생이었습니다. 그의 글은 기술적으로 완벽하지만 감정적으로는 거리감이 느껴졌습니다—잘 프로그래밍된 알고리즘을 읽는 것과 같았습니다. 학기가 중반을 넘어서면서, 무언가가 바뀌었습니다. 그의 에세이에는 갑자기 따뜻함, 예상치 못한 은유, 진정한 통찰의 순간들이 가득차게 되었습니다. 기술적 정밀도는 여전히 존재하지만, 이제 그것은 인간의 목소리를 제공하는 데 활용되었습니다. 저는 기뻤습니다. 이것이 제가 가르치는 이유였습니다—학생들이 그들의 진정한 목소리를 찾는 것을 보는 것입니다. 그 다음 저는 Marcus의 새로운 에세이 중 하나를 제 블라인드 테스트에 포함시켰습니다. 그것은 그의 할머니의 베트남 이민에 관한 개인 서사로, 감각적 세부사항과 감정적 뉘앙스가 가득했습니다. 83%의 참가자가 이를 AI 생성물로 표시했습니다. Marcus에게 이 사실을 알렸을 때, 그는 웃었습니다. "이건 내가 지금껏 쓴 것 중에서 가장 인간적인 것이야,"라고 그는 말했습니다. "나는 할머니와 6시간을 인터뷰했어. 이건 진짜 그녀의 말과 기억이야. 나는 이 글을 쓰면서 울었어." 83%의 전문가들이 "인공적"이라고 부른 에세이는 깊은 인간적 연결, 세심한 연구, 그리고 감정적 취약성의 결과물이었습니다. 한편, "어려움을 극복하는"이라는 주제로 생성된 ChatGPT의 글은 일반적이고 안전하며 모든 예상된 요소를 충족시켜 71%의 독자를 속여 인간으로 오인하게 만들었습니다. 이것이 제가 AI를 실제로 감지하지 못하고 있다는 첫 번째 단서였습니다. 우리는 전혀 다른 것을 감지하고 있었습니다.

데이터: 200명의 전문가들이 실제로 감지한 것

200명의 글쓰기 전문가들이 인간과 AI를 구별하려 시도했을 때의 일은 이렇습니다:

장르	전체 정확도	허위 긍정 (인간을 AI로 간주)	허위 부정 (AI를 인간으로 간주)	평균 신뢰도
학술 에세이	48%	54%	50%	3.2/5
창작 소설	61%	35%	43%	3.8/5
비즈니스 이메일	45%	58%	52%	2.9/5
개인 서사	53%	49%	45%	3.4/5
시	73%	22%	32%	4.1/5
전체 평균	52%	44%	44%	3.5/5

이것이 의미하는 바를 명확히 할 필요가 있습니다: 대부분의 장르에 걸쳐 전문가 독자들은 무작위 추측 이상의 성과를 내지 못했습니다. 만약 제가 그들에게 주의 깊게 읽는 대신 동전을 던지도록 요청했더라면, 그들은 같은 결과를 얻었을 것입니다. 그러나 시를 보십시오. 갑자기 정확도가 73%로 뛰어오르며, 신뢰 수준 또한 현저히 높아집니다. 이것은 작은 효과가 아닌, 모든 참가자 그룹에 걸쳐 거대한 일관된 패턴이었습니다. 허위 긍정률은 특히 우려스럽습니다. 44%의 경우, 독자들은 인간 글쓰기를 AI 생성물로 표시했습니다. 이는 거의 절반의 진정한 인간 작업이 잘못 식별되었다는 것을 의미합니다. 마르쿠스와 같은 학생들이 개인 서사에 마음을 쏟고, 그들의 글이 "로봇처럼 들린다"는 말을 듣고 있습니다. 참가자 전문성별로 데이터를 분해했을 때, 더 정신이 피곤한 사실을 발견했습니다: 출판된 작가들은 평균(49% 정확도)보다 약간 성과가 낮았고, AI 도구를 정기적으로 사용한 사람들은 약간 더 나은 성과(56% 정확도)를 보였습니다. 인간 글쓰기 경험은 도움이 되지 않았습니다. AI에 대한 친밀감은 있었지만, 그것도 겨우 미미한 영향에 불과했습니다. 신뢰도 평가는 또 다른 이야기를 전합니다. 참가자들은 시에 대해 가장 높은 확신을 느꼈고(4.1/5), 비즈니스 이메일에 대해 가장 낮은 신뢰도를 보였습니다(2.9/5). 하지만 신뢰도는 정확도와 상관관계가 없었습니다. 학술 에세이에서는 신뢰도가 평균 3.2였지만 정확도는 48%—무작위보다 나쁜 수치였습니다. 사람들은 자신 있게 잘못된 정보를 가지고 있었습니다.

독자들이 실제로 감지했다고 말한 것

테스트 후, 저는 50명의 참가자와 그들의 의사결정 과정에 대해 깊이 인터뷰했습니다. 그들의 설명은 우려스러운 패턴을 드러냈습니다. 한 편집자는 저에게 말했습니다:

"완벽함을 찾았습니다. 문법이 완벽하다면, 모든 문장이 매끄럽게 이어지고, 어색한 표현이 없다면—that's AI입니다. 인간은 실수를 합니다. 우리는 특정한 말투와 반복적인 표현을 사용하며, 스레드를 잃는 순간이 있습니다. 글이 너무 깨끗하면, 의문이 듭니다."

이 편집자는 Marcus의 에세이를 AI로 표시했습니다. 그녀는 또한 세 가지 실제 AI 작품을 인간으로 표시했는데, 그 이유는 그 작품들이 사소한 문법 오류를 포함하고 있었기 때문입니다(나중에 제가 깨달았듯이, 이는 AI가 가끔씩 약간 잘못된 출력을 생성하기 때문에 발생된 것입니다). 한 출판된 소설가는 자신의 접근 방식을 이렇게 설명했습니다:

"저는 클리셰와 일반적인 언어를 확인했습니다. AI는 '세계'와 '중요한 점은'과 같은 구문을 좋아합니다. 그런 말을 보았을 때, AI라고 표시했습니다. 글이 위험을 감수하고, 예상치 못한 은유를 사용하거나, 독특한 리듬을 갖추었다면—그게 인간처럼 느껴졌습니다."

이 소설가는 68%의 샘플을 정확히 식별했으며, 이는 평균 이상입니다. 하지만 그의 방법에는 결점이 있었습니다: 그는 전통적인 학술 스타일을 따르는 글을 AI로 표시했으며, 그 규범들이 실제로는 제가 학생들에게 사용하라고 가르친 것과 정확히 일치하는 것임에도 불구하고요. 한 fellow 교수는 이러한 통찰력을 공유했습니다:

"AI 작품은 더 안전하게 느껴졌습니다. 그것들은 결코 논란이 될 만한 내용을 언급하지 않았고, 강한 입장을 취하지도 않았으며, 기분을 상하게 할 수 있는 유머를 사용하지 않았습니다. 인간 작가는 더 복잡합니다. 우리는 의견을 가지고 있으며, 위험을 감수합니다. 아무도 불쾌감을 주지 않으려 애쓰는 것처럼 보일 때, AI가 중립을 추구하고 있다고 가정했습니다."

그녀는 AI의 안전성 경향에 대해 맞았습니다. 하지만 그녀는 또한 몇몇 국제 학생들의 에세이를 AI라고 잘못 표시했는데, 그 이유는 그것들이 "너무 공손하다" 또는 "강한 주장을 피했다"는 이유 때문이었습니다—이는 인공 생성이 아니라 문화적 커뮤니케이션 스타일을 반영하는 것임을 인식하지 못했습니다. 패턴은 분명해졌습니다: 독자들은 AI를 감지하지 못했습니다. 그들은 세련됨, 관례, 그리고 주의를 감지하고 있었습니다. 그들은 규칙을 따르고, 위험을 피하며, 전문적인 톤을 유지하는 글을 벌칙에 처하고 있었습니다. 다시 말해, 그들은 제가 수년 동안 가르쳐온 좋은 학생 글쓰기를 인공적이라고 표시하고 있었습니다.

우리가 도전해야 할 가정: "나는 그냥 알 수 있어"

학계와 전문 글쓰기 분야에는 위험한 신화가 돌고 있습니다: 경험이 있는 독자는 무언가가 AI 생성임을 "그냥 알 수 있다"고 주장합니다. 그들은 그것을 감지하고, 단어 뒤에 인간 의식의 부재를 느낀다고 주장합니다. 제 데이터는 이러한 가정을 파괴합니다. 제 연구에 있는 20명의 출판된 작가들—수십 년 동안 글을 쓰고 분석해온 사람들—의 평균 정확도는 49%입니다. 무작위보다 나쁜 결과입니다. 그들의 오랜 경험은 AI 감지에 도움이 되지 않았습니다. 사실, 그것은 해를 끼쳤을 수도 있습니다. 왜냐하면 그들은 "좋은 글쓰기"가 어떻게 생겼는지에 대한 강한 직관을 발전시켰으며, AI는 바로 그 패턴을 모방할 수 있게 학습했기 때문입니다. 40명의 전문 편집자들은 글을 평가하고 개선하는 일을 실제로 하는 직업을 가지고 있기에도 불구하고 평균 51%의 정확도를 기록했습니다. 본질적으로 무작위적이었습니다. 그들의 훈련된 눈과 목소리 및 스타일에 대한 민감성, 언어에 대한 깊은 친숙함—그 어떤 것도 그들에게 이점을 주지 않았습니다. 문학과 작문 전문 교수인 80명의 영어 교수들도 겨우 53%의 정확도를 기록했습니다. 우리는 면밀한 독서, 학생들이 진정한 목소리를 개발하도록 가르치는 일, 강한 글쓰기와 약한 글쓰기를 구별하는 데 평생을 바쳤습니다. 그리고 우리는 인간과 AI를 무작위보다 더 잘 구별하지 못하고 있습니다. 하지만 정말로 저를 괴롭히는 것은: 신뢰도가 정확도와 상관관계가 없었지만, 전문적 지위와는 상관관계가 있었다는 것입니다. 출판된 작가들이 가장 확신을 갖고 판단했습니다 (ave