ChatGPT vs Human Writing: Can You Tell the Difference?

March 2026 · 19 min read · 4,461 words · Last Updated: March 31, 2026Advanced
# ChatGPT与人类写作:你能分辨出区别吗? 200名读者,40个文本样本,5个类型。平均检测准确率:52%。几乎只是比抛硬币好一点。但有一个类型完全打破了这个模式。 我教创意写作已经十五年了,上一学期我做了一件让我质疑自己对这门技艺所有认知的事情。我收集了四十个写作样本——二十个来自我的学生,二十个是使用相同提示生成的ChatGPT生成的——并请200名志愿者辨别哪个是哪个。这些人并不是随机的互联网用户;他们是同事教授、已出版的作者、编辑和高级写作学生。以阅读为生的人。 结果让我连续三晚睡不着觉。

改变我教学写作方式的实验

这一切始于一个学生在办公时间的坦白。我的一个最佳学生莎拉承认她一直在使用ChatGPT来“入门”作业。她坚称不是为了作弊,而是为了克服空白页的恐惧。她会生成一个草稿,然后完全用她自己的声音重写。最终的产品无疑是她的——我敢以我的终身教职打赌。 但这让我想知道:如果莎拉能够将AI写作转变为真正的人类创作,我还能分辨出区别吗?如果我不能,那对我评估学生作品意味着什么? 我设计了一个盲测。五个类型:学术论文、创意小说、商务电子邮件、个人叙述和诗歌。对于每种类型,我从学生那里收集了四个人的样本(经过许可),并用ChatGPT-4生成四个AI样本。我给AI提供了与学生完全相同的提示,包括字数和具体要求。 然后我招募了200名参与者:80名来自我所在大学的英语系,60名来自本地作家小组,40名职业编辑,20名已出版的作者。每个人都收到了按随机顺序排列的40个样本,仅按类型和编号标记。他们的任务很简单:将每个样本标记为“人类”或“AI”。 我期待我的同事们会取得好成绩。我们接受过训练,能够识别语调、真实性和人类思维的微妙标记。我们奔波于教导学生如何发展独特视角的职业生涯。 但我们失败得很惨。

方法论:我们如何测试200名读者

实验持续了六周,在春季学期进行。我想要严格的条件,所以我建立了严格的协议。 对于人类样本,我选择了从未使用过AI工具的学生的作品(通过访谈和数字取证验证)。我选择了代表不同技能水平的作品——有些精致,有些粗糙,但都是正宗的。我包括了来自不同人口统计特征的学生的作品:母语和非母语英语使用者、不同年龄组、不同文化背景。 对于AI样本,我使用了ChatGPT-4,经过精心设计的提示,模拟了我实际的作业说明。我没有挑选输出。AI第一次生成的任何内容,便是纳入测试的内容。没有编辑,没有再生成,没有人类的修改。 每位参与者都收到了包含所有40个样本的数字包。他们有两周的时间来完成评估。我要求他们独立工作,不与他人讨论样本,并在每个判断上在1-5的尺度上注明他们的信心水平。 我还收集了人口统计数据:写作经验年限,是否自己使用过AI工具,主要的类型专长,以及他们对AI的普遍态度(积极、中立或消极)。 样本字数在200到500字之间。足够长以建立语调和风格,但又足够短以防参与者疲惫。我为每个参与者随机排列顺序,以防止疲劳偏差——没有人以相同的顺序看到样本。 在他们提交评估后,我发送了一份后续调查,询问他们用来做出判断的线索。什么让某些东西“感觉”像人类或人工?这些定性数据的展示效果同样引人注目。

让我质疑一切的学生

在分享数据之前,我需要告诉你关于马库斯的事情。 马库斯是我高级写作课程中的一名大三学生,计算机科学专业,选修写作课程。安静、严谨,属于那种在转到下一个段落之前会对一个段落进行七次修订的学生。他的写作在技术上无可挑剔,但情感上显得疏远——就像在读一个优秀编程的算法。 学期中途,发生了变化。他的论文突然具有了温度,出乎意料的隐喻,真实的洞察时刻。技术上的精确性依旧,但现在它服务于人类的声音,而非取而代之。 我很高兴。这就是我教学的原因——看到学生找到他们真实的声音。 然后我把马库斯的一个新论文纳入了我的盲测。这是一篇关于他祖母从越南移民的个人叙述,充满感官细节和情感细微差别。83%的参与者将其标记为AI生成。 当我告诉马库斯时,他笑了。 “这是我写过的最人性化的东西,”他说。“我采访了我祖母六个小时。这些都是她的话,她的回忆。我写的时候哭了。” 83%的专家称之为“人工”的论文是与深厚的人类连接、仔细研究和情感脆弱的产物。与此同时,一篇关于“克服挑战”的ChatGPT生成的文章——通用、安全,击中每一个预期的点——让71%的读者认为它是人类创作。 这是我首次意识到我们实际上并不是在检测AI。我们正在检测完全不同的东西。

数据:200位专家实际上检测到了什么

当200名写作专业人士尝试区分人类与AI写作时,发生了以下情况:
类型 整体准确率 假阳性(人类被标记为AI) 假阴性(AI被标记为人类) 平均信心
学术论文 48% 54% 50% 3.2/5
创意小说 61% 35% 43% 3.8/5
商务电子邮件 45% 58% 52% 2.9/5
个人叙述 53% 49% 45% 3.4/5
诗歌 73% 22% 32% 4.1/5
整体平均 52% 44% 44% 3.5/5
我们需要明确的是,这意味着:在大多数类型中,专家读者的表现毫无改善,和随机猜测没有区别。如果我让他们翻硬币而不是仔细阅读,他们得出的结果是一样的。 但看看诗歌。准确率突然跃升至73%,信心水平显著提高。这不是小的影响——这是在所有参与者群体中出现的大规模、一致的模式。 假阳性率尤其令人担忧。44%的时候,读者将人类写作标记为AI生成。这意味着几乎一半的真实人类作品被错误识别。像马库斯这样的学生,全心投入个人叙述,却被告知他们的写作“听起来像机器人”。 当我按参与者专业水平分解数据时,我发现更令人不安的事情:已出版作者的表现略逊于平均水平(49%准确性),而经常使用AI工具的人表现略好(56%准确性)。对人类写作的经验没有帮助。对AI的熟悉有些许好处,但只有一点。 信心评级讲述了另一个故事。参与者对诗歌(4.1/5)感到最有信心,而对商务电子邮件(2.9/5)感到最缺乏信心。但信心与准确性没有相关性。在学术论文中,信心平均为3.2,而准确性为48%——比随机还差。人们的信心产生了错误的结果。

读者实际上告诉我的他们在检测什么

测试后,我对50名参与者进行了深入采访,了解他们的决策过程。他们的解释揭示了一个令人不安的模式。 一位编辑告诉我:
“我寻找完美。如果语法无可挑剔,每个句子流畅自然,没有别扭的措辞——那就是AI。人类会犯错误。我们有习惯、重复、失去思路的瞬间。当写作过于干净时,就令人怀疑。”
这位编辑将马库斯的论文标记为AI。她还将三篇实际的AI作品标记为人类,因为它们包含了小的语法错误(我后来意识到这些是AI偶尔生成稍微畸形输出的伪影)。 一位已出版的小说家解释了他的处理方法:
“我查看陈词滥调和通用语言。AI偏爱像‘世界’和‘值得注意的是’这样的短语。当我看到这些时,我将其标记为AI。当写作冒险,使用意外的隐喻,或具有独特的节奏时——那感觉像人类。”
这位小说家正确识别了68%的样本,明显高于平均水平。但他的方法有一个缺陷:他将任何遵循传统学术风格的写作标记为AI,即使这些惯例正是我教给学生的。 一位同事教授分享了这个见解:
“AI作品感觉更安全。它们从不说任何有争议的话,从不采取强烈立场,从不使用可能冒犯的幽默。人类作者更杂乱。我们有意见。我们冒险。当我看到一些似乎试图不冒犯任何人的东西时,我假设这是在试图保持中立的AI。”
她说得对,AI确实倾向于安全。但她还错误地将几篇国际学生的论文标记为AI,因为它们“太礼貌”和“避免强烈陈述”——没有意识到这反映了文化传播方式,而不是人工生成。 模式变得清晰:读者并不是在检测AI。他们在检测打磨、常规和小心。它们在惩罚遵循规则、避免风险并保持专业语调的写作。 换句话说,他们在标记好的学生写作——我花了多年教学的那种——为人工创作。

我们需要挑战的假设:“我可以很容易区分”

在学术和专业写作圈中流传着一种危险的神话:经验丰富的读者“可以很容易区分”什么是AI生成的。他们声称能够感受到,能够感受到文字背后缺失的人类意识。 我的数据显示这一假设是错误的。 在我的研究中,20名已出版作者——这些人花了几十年时间来撰写和分析散文——准确率平均为49%。比随机还差。他们多年的经验并没有帮助他们检测AI。事实上,这可能会妨碍他们,因为他们对“优质写作”是什么样的形成了强烈的直觉,而AI学会了恰好模仿这些模式。 40名专业编辑,他们的工作就是评估和改进写作,准确率为51%。基本上是随机的。他们训练有素的眼睛、对声音和风格的敏感度、对语言的深厚熟悉程度——这些都没有给予他们优势。 即使是80名英语教授,包括修辞和写作的专家,也只达到了53%的准确率。我们在精读、教导学生发展真实语音、区分优质写作和劣质写作上建立了职业生涯。但我们无法以比随机更好的比率区分人类和AI。 但真正令我感到困扰的是:信心和准确性没有相关性,但与职业身份存在相关性。已出版作者对其判断最有信心(平均)
T

Written by the Txt1.ai Team

Our editorial team specializes in writing, grammar, and language technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

Related Tools

JSON Formatter & Beautifier - Free Online Tool CSS Minifier - Compress CSS Code Free Top 10 Developer Tips & Tricks

Related Articles

10 Grammar Mistakes Non-Native English Speakers Make - TXT1.ai Why Readability Scores Are Lying to You (And What to Use Instead) Grammarly vs Free Alternatives: A 30-Day Side-by-Side Test

Put this into practice

Try Our Free Tools →

🔧 Explore More Tools

How To Generate Typescript TypesJson To GoUrl EncoderCase ConverterBase64 Encode Decode OnlineSvg Editor

📬 Stay Updated

Get notified about new tools and features. No spam.