ChatGPT vs Human Writing: Can You Tell the Difference? [中文]

# ChatGPT与人类写作：你能分辨出区别吗？ 200名读者，40个文本样本，5个类型。平均检测准确率：52%。几乎只是比抛硬币好一点。但有一个类型完全打破了这个模式。我教创意写作已经十五年了，上一学期我做了一件让我质疑自己对这门技艺所有认知的事情。我收集了四十个写作样本——二十个来自我的学生，二十个是使用相同提示生成的ChatGPT生成的——并请200名志愿者辨别哪个是哪个。这些人并不是随机的互联网用户；他们是同事教授、已出版的作者、编辑和高级写作学生。以阅读为生的人。结果让我连续三晚睡不着觉。

改变我教学写作方式的实验

这一切始于一个学生在办公时间的坦白。我的一个最佳学生莎拉承认她一直在使用ChatGPT来“入门”作业。她坚称不是为了作弊，而是为了克服空白页的恐惧。她会生成一个草稿，然后完全用她自己的声音重写。最终的产品无疑是她的——我敢以我的终身教职打赌。但这让我想知道：如果莎拉能够将AI写作转变为真正的人类创作，我还能分辨出区别吗？如果我不能，那对我评估学生作品意味着什么？我设计了一个盲测。五个类型：学术论文、创意小说、商务电子邮件、个人叙述和诗歌。对于每种类型，我从学生那里收集了四个人的样本（经过许可），并用ChatGPT-4生成四个AI样本。我给AI提供了与学生完全相同的提示，包括字数和具体要求。然后我招募了200名参与者：80名来自我所在大学的英语系，60名来自本地作家小组，40名职业编辑，20名已出版的作者。每个人都收到了按随机顺序排列的40个样本，仅按类型和编号标记。他们的任务很简单：将每个样本标记为“人类”或“AI”。我期待我的同事们会取得好成绩。我们接受过训练，能够识别语调、真实性和人类思维的微妙标记。我们奔波于教导学生如何发展独特视角的职业生涯。但我们失败得很惨。

方法论：我们如何测试200名读者

实验持续了六周，在春季学期进行。我想要严格的条件，所以我建立了严格的协议。对于人类样本，我选择了从未使用过AI工具的学生的作品（通过访谈和数字取证验证）。我选择了代表不同技能水平的作品——有些精致，有些粗糙，但都是正宗的。我包括了来自不同人口统计特征的学生的作品：母语和非母语英语使用者、不同年龄组、不同文化背景。对于AI样本，我使用了ChatGPT-4，经过精心设计的提示，模拟了我实际的作业说明。我没有挑选输出。AI第一次生成的任何内容，便是纳入测试的内容。没有编辑，没有再生成，没有人类的修改。每位参与者都收到了包含所有40个样本的数字包。他们有两周的时间来完成评估。我要求他们独立工作，不与他人讨论样本，并在每个判断上在1-5的尺度上注明他们的信心水平。我还收集了人口统计数据：写作经验年限，是否自己使用过AI工具，主要的类型专长，以及他们对AI的普遍态度（积极、中立或消极）。样本字数在200到500字之间。足够长以建立语调和风格，但又足够短以防参与者疲惫。我为每个参与者随机排列顺序，以防止疲劳偏差——没有人以相同的顺序看到样本。在他们提交评估后，我发送了一份后续调查，询问他们用来做出判断的线索。什么让某些东西“感觉”像人类或人工？这些定性数据的展示效果同样引人注目。

让我质疑一切的学生

在分享数据之前，我需要告诉你关于马库斯的事情。马库斯是我高级写作课程中的一名大三学生，计算机科学专业，选修写作课程。安静、严谨，属于那种在转到下一个段落之前会对一个段落进行七次修订的学生。他的写作在技术上无可挑剔，但情感上显得疏远——就像在读一个优秀编程的算法。学期中途，发生了变化。他的论文突然具有了温度，出乎意料的隐喻，真实的洞察时刻。技术上的精确性依旧，但现在它服务于人类的声音，而非取而代之。我很高兴。这就是我教学的原因——看到学生找到他们真实的声音。然后我把马库斯的一个新论文纳入了我的盲测。这是一篇关于他祖母从越南移民的个人叙述，充满感官细节和情感细微差别。83%的参与者将其标记为AI生成。当我告诉马库斯时，他笑了。 “这是我写过的最人性化的东西，”他说。“我采访了我祖母六个小时。这些都是她的话，她的回忆。我写的时候哭了。” 83%的专家称之为“人工”的论文是与深厚的人类连接、仔细研究和情感脆弱的产物。与此同时，一篇关于“克服挑战”的ChatGPT生成的文章——通用、安全，击中每一个预期的点——让71%的读者认为它是人类创作。这是我首次意识到我们实际上并不是在检测AI。我们正在检测完全不同的东西。

数据：200位专家实际上检测到了什么

当200名写作专业人士尝试区分人类与AI写作时，发生了以下情况：

类型	整体准确率	假阳性（人类被标记为AI）	假阴性（AI被标记为人类）	平均信心
学术论文	48%	54%	50%	3.2/5
创意小说	61%	35%	43%	3.8/5
商务电子邮件	45%	58%	52%	2.9/5
个人叙述	53%	49%	45%	3.4/5
诗歌	73%	22%	32%	4.1/5
整体平均	52%	44%	44%	3.5/5

我们需要明确的是，这意味着：在大多数类型中，专家读者的表现毫无改善，和随机猜测没有区别。如果我让他们翻硬币而不是仔细阅读，他们得出的结果是一样的。但看看诗歌。准确率突然跃升至73%，信心水平显著提高。这不是小的影响——这是在所有参与者群体中出现的大规模、一致的模式。假阳性率尤其令人担忧。44%的时候，读者将人类写作标记为AI生成。这意味着几乎一半的真实人类作品被错误识别。像马库斯这样的学生，全心投入个人叙述，却被告知他们的写作“听起来像机器人”。当我按参与者专业水平分解数据时，我发现更令人不安的事情：已出版作者的表现略逊于平均水平（49%准确性），而经常使用AI工具的人表现略好（56%准确性）。对人类写作的经验没有帮助。对AI的熟悉有些许好处，但只有一点。信心评级讲述了另一个故事。参与者对诗歌（4.1/5）感到最有信心，而对商务电子邮件（2.9/5）感到最缺乏信心。但信心与准确性没有相关性。在学术论文中，信心平均为3.2，而准确性为48%——比随机还差。人们的信心产生了错误的结果。

读者实际上告诉我的他们在检测什么

测试后，我对50名参与者进行了深入采访，了解他们的决策过程。他们的解释揭示了一个令人不安的模式。一位编辑告诉我：

“我寻找完美。如果语法无可挑剔，每个句子流畅自然，没有别扭的措辞——那就是AI。人类会犯错误。我们有习惯、重复、失去思路的瞬间。当写作过于干净时，就令人怀疑。”

这位编辑将马库斯的论文标记为AI。她还将三篇实际的AI作品标记为人类，因为它们包含了小的语法错误（我后来意识到这些是AI偶尔生成稍微畸形输出的伪影）。一位已出版的小说家解释了他的处理方法：

“我查看陈词滥调和通用语言。AI偏爱像‘世界’和‘值得注意的是’这样的短语。当我看到这些时，我将其标记为AI。当写作冒险，使用意外的隐喻，或具有独特的节奏时——那感觉像人类。”

这位小说家正确识别了68%的样本，明显高于平均水平。但他的方法有一个缺陷：他将任何遵循传统学术风格的写作标记为AI，即使这些惯例正是我教给学生的。一位同事教授分享了这个见解：

“AI作品感觉更安全。它们从不说任何有争议的话，从不采取强烈立场，从不使用可能冒犯的幽默。人类作者更杂乱。我们有意见。我们冒险。当我看到一些似乎试图不冒犯任何人的东西时，我假设这是在试图保持中立的AI。”

她说得对，AI确实倾向于安全。但她还错误地将几篇国际学生的论文标记为AI，因为它们“太礼貌”和“避免强烈陈述”——没有意识到这反映了文化传播方式，而不是人工生成。模式变得清晰：读者并不是在检测AI。他们在检测打磨、常规和小心。它们在惩罚遵循规则、避免风险并保持专业语调的写作。换句话说，他们在标记好的学生写作——我花了多年教学的那种——为人工创作。

我们需要挑战的假设：“我可以很容易区分”

在学术和专业写作圈中流传着一种危险的神话：经验丰富的读者“可以很容易区分”什么是AI生成的。他们声称能够感受到，能够感受到文字背后缺失的人类意识。我的数据显示这一假设是错误的。在我的研究中，20名已出版作者——这些人花了几十年时间来撰写和分析散文——准确率平均为49%。比随机还差。他们多年的经验并没有帮助他们检测AI。事实上，这可能会妨碍他们，因为他们对“优质写作”是什么样的形成了强烈的直觉，而AI学会了恰好模仿这些模式。 40名专业编辑，他们的工作就是评估和改进写作，准确率为51%。基本上是随机的。他们训练有素的眼睛、对声音和风格的敏感度、对语言的深厚熟悉程度——这些都没有给予他们优势。即使是80名英语教授，包括修辞和写作的专家，也只达到了53%的准确率。我们在精读、教导学生发展真实语音、区分优质写作和劣质写作上建立了职业生涯。但我们无法以比随机更好的比率区分人类和AI。但真正令我感到困扰的是：信心和准确性没有相关性，但与职业身份存在相关性。已出版作者对其判断最有信心（平均）