改变我教学写作方式的实验
这一切始于一个学生在办公时间的坦白。我的一个最佳学生莎拉承认她一直在使用ChatGPT来“入门”作业。她坚称不是为了作弊,而是为了克服空白页的恐惧。她会生成一个草稿,然后完全用她自己的声音重写。最终的产品无疑是她的——我敢以我的终身教职打赌。 但这让我想知道:如果莎拉能够将AI写作转变为真正的人类创作,我还能分辨出区别吗?如果我不能,那对我评估学生作品意味着什么? 我设计了一个盲测。五个类型:学术论文、创意小说、商务电子邮件、个人叙述和诗歌。对于每种类型,我从学生那里收集了四个人的样本(经过许可),并用ChatGPT-4生成四个AI样本。我给AI提供了与学生完全相同的提示,包括字数和具体要求。 然后我招募了200名参与者:80名来自我所在大学的英语系,60名来自本地作家小组,40名职业编辑,20名已出版的作者。每个人都收到了按随机顺序排列的40个样本,仅按类型和编号标记。他们的任务很简单:将每个样本标记为“人类”或“AI”。 我期待我的同事们会取得好成绩。我们接受过训练,能够识别语调、真实性和人类思维的微妙标记。我们奔波于教导学生如何发展独特视角的职业生涯。 但我们失败得很惨。方法论:我们如何测试200名读者
实验持续了六周,在春季学期进行。我想要严格的条件,所以我建立了严格的协议。 对于人类样本,我选择了从未使用过AI工具的学生的作品(通过访谈和数字取证验证)。我选择了代表不同技能水平的作品——有些精致,有些粗糙,但都是正宗的。我包括了来自不同人口统计特征的学生的作品:母语和非母语英语使用者、不同年龄组、不同文化背景。 对于AI样本,我使用了ChatGPT-4,经过精心设计的提示,模拟了我实际的作业说明。我没有挑选输出。AI第一次生成的任何内容,便是纳入测试的内容。没有编辑,没有再生成,没有人类的修改。 每位参与者都收到了包含所有40个样本的数字包。他们有两周的时间来完成评估。我要求他们独立工作,不与他人讨论样本,并在每个判断上在1-5的尺度上注明他们的信心水平。 我还收集了人口统计数据:写作经验年限,是否自己使用过AI工具,主要的类型专长,以及他们对AI的普遍态度(积极、中立或消极)。 样本字数在200到500字之间。足够长以建立语调和风格,但又足够短以防参与者疲惫。我为每个参与者随机排列顺序,以防止疲劳偏差——没有人以相同的顺序看到样本。 在他们提交评估后,我发送了一份后续调查,询问他们用来做出判断的线索。什么让某些东西“感觉”像人类或人工?这些定性数据的展示效果同样引人注目。让我质疑一切的学生
在分享数据之前,我需要告诉你关于马库斯的事情。 马库斯是我高级写作课程中的一名大三学生,计算机科学专业,选修写作课程。安静、严谨,属于那种在转到下一个段落之前会对一个段落进行七次修订的学生。他的写作在技术上无可挑剔,但情感上显得疏远——就像在读一个优秀编程的算法。 学期中途,发生了变化。他的论文突然具有了温度,出乎意料的隐喻,真实的洞察时刻。技术上的精确性依旧,但现在它服务于人类的声音,而非取而代之。 我很高兴。这就是我教学的原因——看到学生找到他们真实的声音。 然后我把马库斯的一个新论文纳入了我的盲测。这是一篇关于他祖母从越南移民的个人叙述,充满感官细节和情感细微差别。83%的参与者将其标记为AI生成。 当我告诉马库斯时,他笑了。 “这是我写过的最人性化的东西,”他说。“我采访了我祖母六个小时。这些都是她的话,她的回忆。我写的时候哭了。” 83%的专家称之为“人工”的论文是与深厚的人类连接、仔细研究和情感脆弱的产物。与此同时,一篇关于“克服挑战”的ChatGPT生成的文章——通用、安全,击中每一个预期的点——让71%的读者认为它是人类创作。 这是我首次意识到我们实际上并不是在检测AI。我们正在检测完全不同的东西。数据:200位专家实际上检测到了什么
当200名写作专业人士尝试区分人类与AI写作时,发生了以下情况:| 类型 | 整体准确率 | 假阳性(人类被标记为AI) | 假阴性(AI被标记为人类) | 平均信心 |
|---|---|---|---|---|
| 学术论文 | 48% | 54% | 50% | 3.2/5 |
| 创意小说 | 61% | 35% | 43% | 3.8/5 |
| 商务电子邮件 | 45% | 58% | 52% | 2.9/5 |
| 个人叙述 | 53% | 49% | 45% | 3.4/5 |
| 诗歌 | 73% | 22% | 32% | 4.1/5 |
| 整体平均 | 52% | 44% | 44% | 3.5/5 |
读者实际上告诉我的他们在检测什么
测试后,我对50名参与者进行了深入采访,了解他们的决策过程。他们的解释揭示了一个令人不安的模式。 一位编辑告诉我:“我寻找完美。如果语法无可挑剔,每个句子流畅自然,没有别扭的措辞——那就是AI。人类会犯错误。我们有习惯、重复、失去思路的瞬间。当写作过于干净时,就令人怀疑。”这位编辑将马库斯的论文标记为AI。她还将三篇实际的AI作品标记为人类,因为它们包含了小的语法错误(我后来意识到这些是AI偶尔生成稍微畸形输出的伪影)。 一位已出版的小说家解释了他的处理方法:
“我查看陈词滥调和通用语言。AI偏爱像‘世界’和‘值得注意的是’这样的短语。当我看到这些时,我将其标记为AI。当写作冒险,使用意外的隐喻,或具有独特的节奏时——那感觉像人类。”这位小说家正确识别了68%的样本,明显高于平均水平。但他的方法有一个缺陷:他将任何遵循传统学术风格的写作标记为AI,即使这些惯例正是我教给学生的。 一位同事教授分享了这个见解:
“AI作品感觉更安全。它们从不说任何有争议的话,从不采取强烈立场,从不使用可能冒犯的幽默。人类作者更杂乱。我们有意见。我们冒险。当我看到一些似乎试图不冒犯任何人的东西时,我假设这是在试图保持中立的AI。”她说得对,AI确实倾向于安全。但她还错误地将几篇国际学生的论文标记为AI,因为它们“太礼貌”和“避免强烈陈述”——没有意识到这反映了文化传播方式,而不是人工生成。 模式变得清晰:读者并不是在检测AI。他们在检测打磨、常规和小心。它们在惩罚遵循规则、避免风险并保持专业语调的写作。 换句话说,他们在标记好的学生写作——我花了多年教学的那种——为人工创作。