我为何决定亲自测试 AI 检测器
临界点是在十月的一个星期二下午的办公时间。一个我称之为玛利亚的学生坐在我桌子对面,她手里颤抖着握着我们大学的 AI 检测系统生成的打印报告。该工具将她的个人随笔——关于照顾患有痴呆症的奶奶的脆弱作品——标记为“98% 可能是 AI 生成”。 我读过那篇随笔。我看着它经过三次草稿的演变。我看到玛利亚在把那些记忆写在纸上时承受的情感重量。没有哪个宇宙会认为那篇随笔是 AI 写的。 但检测工具不同意。而根据我们部门的新政策,得分超过 80% 会触发自动学术诚信调查。 玛利亚并不孤单。在两周的时间里,我进行过四次类似的对话。每一次,我都确信学生是自己写的作品。每一次,检测器却说不是。每一次,我只有我的专业判断作为超越算法的具体证据——而我被告知,这可能是“有偏见”或“过时”的。 就在那时,我决定不再信任这些工具,开始测试它们。 我想知道:AI 写作检测器的准确性到底有多高?不是根据它们的营销材料或挑选的案例研究,而是在真实世界的条件下,使用多样的写作样本。它们的假阳性率是多少?假阴性率又是多少?它们在不同的类别、写作风格或人口群体中表现是否有所不同? 我设计了一个研究来回答这些问题。我招募了其他部门的同事,从公共领域资源中提取样本,使用多种模型生成 AI 文本,并创建了一个盲测协议。接着,我将所有样本通过市场上五个最受欢迎的 AI 检测工具。 结果令人堪忧。我如何结构化实验
在分析一个样本之前,我花了两周时间设计方法论。这不会是一个随意的比较——它需要经得起我对任何学术研究所施加的严格审查。 首先,我收集了来自五个不同类别的 127 个文本样本:学术论文、创意小说、技术写作、新闻报道和个人叙事。每个类别大约有 25 个样本,在人工撰写和 AI 生成内容之间均匀分配。 对于人工撰写的样本,我使用了多种来源。我从古腾堡计划中获取历史文本(包括美国宪法、莎士比亚和弗吉尼亚·伍尔夫的摘录)。我收集了之前学期的学生论文——经过许可并删除了所有识别信息。我联系了撰写发表文章的记者朋友。我甚至自己用不同风格写了几个样本。 对于 AI 生成的样本,我使用了四种不同的模型:GPT-3.5、GPT-4、Claude 和一个开源模型。我变换提示以生成不同的写作风格,从正式的学术散文到随意的博客文章。我还创建了“混合”样本,对 AI 输出进行了大量编辑,添加了我自己的句子并重组段落——因为这就是学生们实际上所做的。 然后是关键部分:我对所有样本进行了随机化。每个样本都有一个代码编号。我创建了一个只有我能访问的主密钥。当我运行测试时,连我自己都不知道哪个样本是哪个——我让我的研究助理处理实际的提交,以防止无意识的偏见。 我选择了五个 AI 检测工具,基于它们的受欢迎程度和机构采纳情况:GPTZero、Originality.AI、Copyleaks、Writer.com 的 AI 检测器和 Turnitin 的 AI 检测功能。我将 127 个样本通过所有五个检测器进行测试,记录它们的置信分数和二进制分类(AI 或人类)。 测试花费了六天。分析又花了一周。而我发现的结果让我质疑这些工具是否应该使用。我看到一个检测器将莎士比亚标记为 AI 的那一天
在测试的第三天,发生了一件至今令我思考的事情。我将样本 #47 通过检测器运行——一段我从《哈姆雷特》中抽取的片段,我稍作现代化以避免明显的古代语言模式。不是重写,而是将“汝”换成“你”,并调整几个动词形式。 GPTZero 给出的 AI 概率为 87%。 我坐在那里盯着屏幕,试图理解我所看到的。这是莎士比亚。可以说是英语文学中研究得最多的作家。一个于 1616 年去世的男人,生于神经网络存在的四个世纪之前。而算法对他的文字充满信心——不是犹豫,而是充满信心——认为它们是机器生成的。 我再试了一次,以为我犯了错误。结果相同。 然后我试了原始的、未经现代化的文本。分数降到了 23%。显然,古代语言模式对这些检测器来说是“人类”的信号,而现代英语版本的相同思想则信号为“AI”。 那时我明白了根本性问题:这些工具并没有在检测 AI。它们在检测它们被训练去与 AI 关联的模式,这些模式往往与清晰、结构良好的人类写作中的模式重叠。 我继续测试。样本 #52 是来自美国宪法序言的一段。Originality.AI 将其标记为 76% 可能为 AI 生成。样本 #61 是一篇来自 1987 年软件指南的技术手册摘录——在现代 AI 存在的数十年前写成。五个检测器中的三个称其为 AI。 但令我真正困扰的是:样本 #73 是我用 GPT-4 生成的一篇 500 字的随笔,几乎没有编辑。我让它以直接、信息丰富的风格写关于气候变化的内容。所有五个检测器都标记为人类编写。最高的 AI 概率分数为 31%。 模式变得清晰:这些工具以可预测的方式系统性地犯错。它们标记正式、组织良好的人类写作为 AI。它们错过了随意或含有轻微缺陷的 AI 生成文本。并且没有一致的逻辑——一个检测器标记的,另一个却批准。 我想到了玛利亚,坐在我的办公室里,眼里含着泪水。还有多少其他学生因为写得太好而被错误指控?有多少人意识到清晰、组织良好的写作在某种程度上是可疑的?数字:各检测器和类别的准确性分析
在完成所有 635 个单独测试(127 个样本 × 5 个检测器)后,我将结果汇总为一个综合数据集。数字揭示了以下内容:| 检测器 | 总体准确性 | 假阳性率 | 假阴性率 | 学术 | 创意 | 技术 | 新闻 | 个人 |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| 平均 | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
检测器公司不告诉你的事情
在我在教师通讯中发布初步发现后,我收到了来自我所测试的五家公司中的三家的电子邮件。两家表示愿意“帮助我更好地理解”他们的技术。一家则威胁采取法律行动,如果我更广泛地发布结果,称我的方法存在缺陷,结论具有诽谤性。 这个反应告诉我我需要知道的一切。 我开始深入研究这些公司如何宣传他们的产品与他们实际交付的产品之间的差距,发现这种脱节让人震惊。“我们的 AI 检测模型实现了 99% 的准确性,假阳性率低于 0.2%,”一家公司声称。