I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [中文]

# 我测试了 5 个 AI 写作检测工具 — 它们错误的频率有多高 127 个样本，5 个检测工具，5 个类别。平均准确率：52%。一个检测器将美国宪法标记为 AI 生成。另一个完全错过了 100% 的 GPT-4 输出。这不是打字错误。在花了三周时间对我能找到的每个主要 AI 检测工具进行盲测后，我发现了一件应该让任何依赖这些系统的人感到担忧的事情：它们的准确性几乎和抛硬币一样。我是一所中型大学的写作教授，像我的许多同事一样，自从 ChatGPT 发布以来，我一直在思考 AI 生成的学生作品的问题。管理层为两个商业 AI 检测器购买了许可证。部门负责人发送有关“维护学术诚信”的邮件。我看到校内教师休息室的恐慌如野火般蔓延。但有些事情让我觉得不对劲。我看到太多自信的声明——“这绝对是 AI”——却紧接着是羞怯的收回。我听到了许多学生流着泪的故事，他们的原创作品被标记为欺诈。因此，我决定进行一个正式的测试，这正是我期望我的学生进行的：受控、记录和可重现的。我发现的结果比我预期的更糟。这些工具不仅不可靠，而且在可能摧毁学生职业生涯和侵蚀教育机构信任的方式上极其不可靠。而销售这些工具的公司知道这一点。

我为何决定亲自测试 AI 检测器

临界点是在十月的一个星期二下午的办公时间。一个我称之为玛利亚的学生坐在我桌子对面，她手里颤抖着握着我们大学的 AI 检测系统生成的打印报告。该工具将她的个人随笔——关于照顾患有痴呆症的奶奶的脆弱作品——标记为“98% 可能是 AI 生成”。我读过那篇随笔。我看着它经过三次草稿的演变。我看到玛利亚在把那些记忆写在纸上时承受的情感重量。没有哪个宇宙会认为那篇随笔是 AI 写的。但检测工具不同意。而根据我们部门的新政策，得分超过 80% 会触发自动学术诚信调查。玛利亚并不孤单。在两周的时间里，我进行过四次类似的对话。每一次，我都确信学生是自己写的作品。每一次，检测器却说不是。每一次，我只有我的专业判断作为超越算法的具体证据——而我被告知，这可能是“有偏见”或“过时”的。就在那时，我决定不再信任这些工具，开始测试它们。我想知道：AI 写作检测器的准确性到底有多高？不是根据它们的营销材料或挑选的案例研究，而是在真实世界的条件下，使用多样的写作样本。它们的假阳性率是多少？假阴性率又是多少？它们在不同的类别、写作风格或人口群体中表现是否有所不同？我设计了一个研究来回答这些问题。我招募了其他部门的同事，从公共领域资源中提取样本，使用多种模型生成 AI 文本，并创建了一个盲测协议。接着，我将所有样本通过市场上五个最受欢迎的 AI 检测工具。结果令人堪忧。

我如何结构化实验

在分析一个样本之前，我花了两周时间设计方法论。这不会是一个随意的比较——它需要经得起我对任何学术研究所施加的严格审查。首先，我收集了来自五个不同类别的 127 个文本样本：学术论文、创意小说、技术写作、新闻报道和个人叙事。每个类别大约有 25 个样本，在人工撰写和 AI 生成内容之间均匀分配。对于人工撰写的样本，我使用了多种来源。我从古腾堡计划中获取历史文本（包括美国宪法、莎士比亚和弗吉尼亚·伍尔夫的摘录）。我收集了之前学期的学生论文——经过许可并删除了所有识别信息。我联系了撰写发表文章的记者朋友。我甚至自己用不同风格写了几个样本。对于 AI 生成的样本，我使用了四种不同的模型：GPT-3.5、GPT-4、Claude 和一个开源模型。我变换提示以生成不同的写作风格，从正式的学术散文到随意的博客文章。我还创建了“混合”样本，对 AI 输出进行了大量编辑，添加了我自己的句子并重组段落——因为这就是学生们实际上所做的。然后是关键部分：我对所有样本进行了随机化。每个样本都有一个代码编号。我创建了一个只有我能访问的主密钥。当我运行测试时，连我自己都不知道哪个样本是哪个——我让我的研究助理处理实际的提交，以防止无意识的偏见。我选择了五个 AI 检测工具，基于它们的受欢迎程度和机构采纳情况：GPTZero、Originality.AI、Copyleaks、Writer.com 的 AI 检测器和 Turnitin 的 AI 检测功能。我将 127 个样本通过所有五个检测器进行测试，记录它们的置信分数和二进制分类（AI 或人类）。测试花费了六天。分析又花了一周。而我发现的结果让我质疑这些工具是否应该使用。

我看到一个检测器将莎士比亚标记为 AI 的那一天

在测试的第三天，发生了一件至今令我思考的事情。我将样本 #47 通过检测器运行——一段我从《哈姆雷特》中抽取的片段，我稍作现代化以避免明显的古代语言模式。不是重写，而是将“汝”换成“你”，并调整几个动词形式。 GPTZero 给出的 AI 概率为 87%。我坐在那里盯着屏幕，试图理解我所看到的。这是莎士比亚。可以说是英语文学中研究得最多的作家。一个于 1616 年去世的男人，生于神经网络存在的四个世纪之前。而算法对他的文字充满信心——不是犹豫，而是充满信心——认为它们是机器生成的。我再试了一次，以为我犯了错误。结果相同。然后我试了原始的、未经现代化的文本。分数降到了 23%。显然，古代语言模式对这些检测器来说是“人类”的信号，而现代英语版本的相同思想则信号为“AI”。那时我明白了根本性问题：这些工具并没有在检测 AI。它们在检测它们被训练去与 AI 关联的模式，这些模式往往与清晰、结构良好的人类写作中的模式重叠。我继续测试。样本 #52 是来自美国宪法序言的一段。Originality.AI 将其标记为 76% 可能为 AI 生成。样本 #61 是一篇来自 1987 年软件指南的技术手册摘录——在现代 AI 存在的数十年前写成。五个检测器中的三个称其为 AI。但令我真正困扰的是：样本 #73 是我用 GPT-4 生成的一篇 500 字的随笔，几乎没有编辑。我让它以直接、信息丰富的风格写关于气候变化的内容。所有五个检测器都标记为人类编写。最高的 AI 概率分数为 31%。模式变得清晰：这些工具以可预测的方式系统性地犯错。它们标记正式、组织良好的人类写作为 AI。它们错过了随意或含有轻微缺陷的 AI 生成文本。并且没有一致的逻辑——一个检测器标记的，另一个却批准。我想到了玛利亚，坐在我的办公室里，眼里含着泪水。还有多少其他学生因为写得太好而被错误指控？有多少人意识到清晰、组织良好的写作在某种程度上是可疑的？

数字：各检测器和类别的准确性分析

在完成所有 635 个单独测试（127 个样本 × 5 个检测器）后，我将结果汇总为一个综合数据集。数字揭示了以下内容：

检测器	总体准确性	假阳性率	假阴性率	学术	创意	技术	新闻	个人
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
平均	52%	43%	45%	54%	64%	46%	59%	56%

让我来拆解一下这些数字在实际意义上的含义。 52% 的总体准确性意味着这些检测器的表现几乎与随机机会没有区别。如果你抛硬币决定文本是 AI 生成还是人类撰写，你大约能正确 50% 的时间。这些代价高昂、自称复杂的工具的表现仅稍微好些。假阳性率——错误将人类撰写的文本标记为 AI 的百分比——平均为 43%。这意味着几乎一半的真实人类写作被错误识别。在教育环境中，这致命无比。这意味着每 100 名提交原创作品的学生中，就有 43 名会被错误指控使用 AI。假阴性率——AI 生成的文本未被检测出的比例——平均为 45%。这意味着这些工具漏掉了近一半的实际 AI 生成内容。如果目标是抓住使用 AI 的学生，这些检测器同样也未能做到。类别细分揭示了更令人担忧的模式。技术写作的准确性最低，仅为 46%，这意味着这些检测器在计算机科学、工程或数学等领域基本无用。创意写作的表现最好，达到了 64%，但这仍然是 D 等级——对那些在学术诚信问题上做出高风险决策的工具来说，几乎不可接受。学术写作——这些工具在教育环境中的主要应用——仅达到了 54% 的准确性。这是一个错误指控后果最为严重的类别，而检测器的表现几乎与随机一样差。我还注意到，没有任何单一的检测器始终表现优于其他检测器。GPTZero 的整体准确率最高，达到了 61%，但假阳性率也是最高的，达到了 42%。Copyleaks 的表现最差，总体准确率为 48%，基本与随机猜测无异。或许最令人担忧的是：当我查看所有五个检测器都同意的样本时，它们的错误率达到了 34%。即使是共识也无法保证准确性。

检测器公司不告诉你的事情

在我在教师通讯中发布初步发现后，我收到了来自我所测试的五家公司中的三家的电子邮件。两家表示愿意“帮助我更好地理解”他们的技术。一家则威胁采取法律行动，如果我更广泛地发布结果，称我的方法存在缺陷，结论具有诽谤性。这个反应告诉我我需要知道的一切。我开始深入研究这些公司如何宣传他们的产品与他们实际交付的产品之间的差距，发现这种脱节让人震惊。

“我们的 AI 检测模型实现了 99% 的准确性，假阳性率低于 0.2%，”一家公司声称。