测试设置:我如何在 50 个真实文档上测试五种工具
我收集了过去六个月我实际编辑工作中的 50 个文档。我剔除了客户名称和敏感信息,但保留了其他所有内容:错误、尴尬的措辞、被动语态、逗号拼接,所有混乱的地方。 文档类型分类如下: - 15 篇博客文章(每篇 800-2000 字) - 10 篇学术论文(来自论文和期刊提交的部分) - 12 封商业电子邮件(内部和客户面对的) - 8 段小说摘录(短篇小说和小说章节) - 5 篇技术文档(用户指南和 API 文档) 我用五种工具处理了每个文档: 1. Grammarly Premium($12/月) 2. LanguageTool(免费版) 3. ProWritingAid(免费版,500 字限制) 4. Hemingway Editor(免费网页版) 5. Microsoft Word 内置检查器(包含在 Office 365 中) 对于每种工具的每个建议,我记录了: - 是否正确 - 是否错误 - 是否风格偏好(主观) - 是否捕捉到了其他工具遗漏的内容 - 审查建议花了多长时间 我每天花 2-3 小时持续测试 30 天。我记录了 3,847 条单独的建议。我喝了太多咖啡。我伴侣问我是否还好。我不好,但我有数据。改变一切的文档
在第 12 天,我用所有五种工具处理了一篇关于可持续时尚的博客文章。它有 1,200 字,由一位英文非母语的客户写成,但她拥有环境科学的博士学位。她的写作在技术上是正确的,但显得僵硬。她想让它听起来更随意。 Grammarly Premium 标记了 47 个问题。LanguageTool 标记了 23 个。Hemingway 标记了 31 个。Word 标记了 18 个。ProWritingAid 标记了 52 个(但我只能以 500 字为单位检查,这很烦人)。 事情是这样的:Grammarly 想把“快时尚的环境影响”改成“快时尚的环境影响”。在技术上更清晰,当然。但它打破了节奏。让句子变得更长,更官僚。 LanguageTool 没有标记它。Hemingway 没有标记它。Word 没有标记它。 然后我来到了这个句子:“该行业每年产生 9200 万吨废物,其中很大一部分最终进入填埋场或焚烧炉。” Grammarly 建议将“其中很大一部分”改为“绝大部分”。但客户的来源说“很大”——这不是绝大部分,而是一个重要部分。Grammarly 把这一说法强加得比数据支持的更强。 LanguageTool 发现了 Grammarly 漏掉的一个实际错误:“在纺织生产中使用的染料通常包含重金属。”主谓不一致。“Dyes” 是复数,“contains” 是单数。应该是“contain”。 这一刻我意识到:Grammarly Premium 未必更好。它仅仅是更具攻击性。它提出了更多的建议,但这并不意味着它们就是更好的建议。数字:3,847 条建议告诉我的事
以下是针对 50 个文档的所有建议的详细信息:| 工具 | 总建议数 | 正确捕捉 | 误报 | 风格偏好 | 独特捕捉 |
|---|---|---|---|---|---|
| Grammarly Premium | 1,247 | 891 (71%) | 143 (11%) | 213 (17%) | 67 |
| LanguageTool | 876 | 734 (84%) | 67 (8%) | 75 (9%) | 52 |
| ProWritingAid | 1,089 | 723 (66%) | 201 (18%) | 165 (15%) | 41 |
| Hemingway | 543 | 312 (57%) | 89 (16%) | 142 (26%) | 28 |
| Microsoft Word | 92 | 78 (85%) | 8 (9%) | 6 (7%) | 3 |
数据未显示(但应该显示)的内容
数字讲述了一个故事。在这 30 天中每日使用这些工具又讲述了另一个故事。“最好的语法检查器是你会实际持续使用的那个。到第三周时,我发现自己开始忽略 Grammarly 的建议,因为我已经学会了哪些建议可以忽略。使用 LanguageTool 时,我更信任其建议,因此更认真对待它们。”这是没人提及的隐性成本:建议疲劳。 当一款工具在一篇 1,200 字的文档中标记 47 个问题时,你开始略读。你停止仔细阅读每个建议。你形成了模式:“哦,它又在抱怨被动语态,忽略。” “另一个逗号建议,忽略。” “冗长警告,忽略。” 你在为 Premium 付费,但因为建议太多而不使用一半的建议。 LanguageTool 标记的问题更少,但我更认真对待它们。信号与噪音的比率更好。当它指出某处出错时,通常是对的。 还有另一件数据未显示的事情:上下文切换成本。 ProWritingAid 的免费版本有 500 字限制。对于一篇 1,200 字的博客文章,我必须: 1. 复制前 500 个字 2. 粘贴到 ProWritingAid 3. 审查建议 4. 复制下一个 500 个字 5. 粘贴到 ProWritingAid 6. 审查建议 7. 复制最后 200 个字 8. 粘贴到 ProWritingAid 9. 审查建议 这比使用 Grammarly 或 LanguageTool 花费的时间多了三倍,后者可以处理完整的文档。500 字的限制使得 ProWritingAid 的免费版本几乎无法用于超过电子邮件的任何东西。 Hemingway 编辑器不保存您的工作。它是一个没有帐户系统的网页应用程序。每次我关闭浏览器时,我都会失去所有内容。我不得不保留一个单独的文档来记录我的编辑。这为每个文档增加了 5-10 分钟的时间。 这些摩擦成本是重要的。一款工具如果优于 10%,但耗时更长 50%,实际上并不更好。
“高级”功能的神话
Grammarly Premium 的费用为 144 美元/年。为这笔钱,你能得到什么? 根据 Grammarly 的营销: - 高级语法和标点检查 - 词汇增强建议 - 特定类型写作风格检查 - 抄袭检测 - 语气调整 让我告诉你我发现了什么。 高级语法检查:LanguageTool 的免费版捕捉到了 52 个 Grammarly 漏掉的独特错误。Grammarly 捕捉到了 67 个 LanguageTool 漏掉的独特错误。二者之间的差异是存在的,但并不压倒性。Premium 并未显著提升语法检查的效果。 词汇增强:这是 Grammarly 的强项。在 50 个文档中,它建议更好的词汇选择 156 次,我接受了大约 60% 的建议。LanguageTool 几乎不提供这类建议。但是:你可以从同义词词典或询问同事得到类似的建议。这是有帮助的,但并非必不可少。 特定类型风格检查:我用学术论文进行了测试。Grammarly 有一个“学术”模式。它捕捉到了一些被动语态,并提出了更正式的替代方案。但它也想把完全可接受的学术措辞改成更随意的表达。类型检测并不足够复杂,无法理解学科惯例。一篇生物学论文和哲学论文有不同的风格规范,而 Grammarly 对它们的处理是一样的。 抄袭检测:我没有进行大规模测试,因为我没有抄袭文档的语料库。但我确实运行了几段我故意复制自维基百科的内容。Grammarly 捕捉到了。这一点,免费的谷歌搜索也一样。抄袭检测对教师和编辑非常有价值,但大多数作家并不需要它。 语气调整:这是 Grammarly 最新的功能。它会告诉你你的写作听起来是否自信、友好、正式等。我发现它极端不一致。相同的段落有时会在一两天后被标记为“自信”,有时候又会标记为“不确定”,仅仅是经过了小的编辑。它不是无用的,但也不值得每年 144 美元。“当你在专业环境中写作时,高级功能最有价值,因为错误代价高昂——客户提案、学术提交、发布的文章。对于博客文章、电子邮件和随意写作,免费工具足够了。”