I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [日本語]

# 私が5つのAIライティング検出器をテストした — その誤りの頻度はこれです 127サンプル、5つの検出器、5つのジャンル。平均精度：52%。ある検出器はアメリカ合衆国憲法をAI生成とマークしました。別の検出器はGPT-4の出力を100%見逃しました。これは誤植ではありません。主要なAI検出ツールを見つけ出し、盲検テストを3週間行った結果、これらのシステムに依存している人々が懸念すべき事実を発見しました：彼らはほとんどコインフリップより良くありません。私は中規模の大学のライティング教授であり、多くの同僚と同様に、ChatGPTが登場して以来、AI生成の学生作業について悩んでいました。大学は2つの商用AI検出器のライセンスを購入しました。学部長は「学問の誠実性を維持する」についてのメールを送りました。そして、パニックが教員のラウンジに広がる様子を見ていました。しかし、私には何かが正しく感じられませんでした。「これは間違いなくAIです」という自信満々の宣言をあまりにも多く見てきましたが、その後には恥じらいの撤回が続きました。学生が涙を流して、元の作品が不正としてフラグが立てられるという話を聞きました。そこで私は、自分の学生に期待するような適切なテストを行うことにしました：制御され、文書化され、再現可能なものです。私が見つけたものは、予想以上に悪かったです。これらのツールは単に信頼できないわけではありません。彼らは学生のキャリアを壊す恐れがある方法で、危険にさらされているのです。そして、それを販売している企業もそれを知っています。

なぜ私が自分でAI検出器をテストすることにしたのか

決定的な瞬間は10月の火曜日の午後、オフィスアワー中に訪れました。私がマリアと呼ぶ学生が私のデスクの前に座り、大学のAI検出システムから印刷されたレポートを持つその手が震えていました。そのツールは彼女の個人的なエッセイ、つまり認知症を抱えた祖母の世話をすることについての生々しく、脆弱な作品を「98% AI生成の可能性がある」とフラグしました。私はそのエッセイを読みました。私は3つのドラフトを通じてその進化を見てきました。その記憶を紙に書き起こすことの感情的な重みでマリアが苦しむ様子を見ました。そのエッセイがAIによって書かれたという宇宙は存在しませんでした。しかし、検出ツールは異なる意見でした。そして、私たちの学部の新しいポリシーによれば、スコアが80%以上の時は自動的に学問の誠実性調査がトリガーされました。マリアは一人ではありませんでした。2週間の間に、私は同様の会話を4回しました。毎回、私は学生が自分自身で作品を書いたと確信していました。毎回、検出器はそれとは異なる結果を示しました。そして、毎回、私はアルゴリズムを覆す具体的な証拠を持たず、私の専門的な判断に基づくしかありませんでした。その判断は「偏見がある」または「時代遅れかもしれない」と言われました。そこで私は、これらのツールを信頼するのをやめ、テストを開始することにしました。私は知りたかったのです：AIライティング検出器は本当にどれほど正確なのか？彼らのマーケティング資料や厳選されたケーススタディに基づいてではなく、多様なライティングサンプルを使った実環境で。彼らの偽陽性率は？偽陰性率は？ジャンル、ライティングスタイル、または人口統計グループによって異なるパフォーマンスを示すのか？私はこれらの質問に答える研究を設計しました。他の学部からの同僚を募集し、公共ドメインのソースからサンプルを抜き出し、複数のモデルを使ってAIテキストを生成し、盲検テストのプロトコルを作成しました。それから、市場で最も人気のある5つのAI検出ツールを通じてすべてを実行しました。結果は非常に否定的でした。

実験の構造

私は1つのサンプルを分析する前に2週間、方法論を設計しました。これはカジュアルな比較ではありませんでした—学術研究に適用するのと同じ厳密さに耐えなければなりませんでした。まず、私は異なる5つのジャンルにわたって127のテキストサンプルを集めました：学術エッセイ、創造的フィクション、技術文書、ジャーナリズム、個人的な物語。各ジャンルにはおおよそ25のサンプルがあり、人間が書いたものとAIが生成したものが均等に分かれていました。人間が書いたサンプルには、さまざまなソースを使用しました。私は歴史的テキストのためにプロジェクト・グーテンベルクから抜き出しました（アメリカ合衆国憲法、シェイクスピア、バージニア・ウルフの抜粋を含む）。私は、学生のエッセイを過去の学期から収集しました—許可を得て、すべての識別情報を取り除きました。私は、発表された記事を寄稿したジャーナリストの友人に連絡をしました。私は異なるスタイルでいくつかのサンプルを自分でも書きました。 AI生成のサンプルには、4つの異なるモデルを使用しました：GPT-3.5、GPT-4、Claude、およびオープンソースモデルです。私は、フォーマルな学術文体からカジュアルなブログ投稿まで、異なるライティングスタイルを生成するためにプロンプトを変えました。また、AI出力を大幅に編集し、私自身の文を追加し、段落を再構成した「ハイブリッド」サンプルも作成しました—なぜなら、それが学生が実際に行うことだからです。その後、重要な部分に入りました：すべてをランダム化しました。各サンプルにはコード番号を付けました。私だけがアクセスできるマスターキーを作成しました。テストを実行したとき、私自身がどのサンプルがどれか知りませんでした—無意識のバイアスを防ぐために、実際の提出を私の研究助手に処理させました。私は、人気と機関の採用に基づいて5つのAI検出ツールを選択しました：GPTZero、Originality.AI、Copyleaks、Writer.comのAI検出器、およびTurnitinのAI検出機能です。私は127のサンプルすべてを5つの検出器に通し、彼らの信頼スコアとバイナリ分類（AIまたは人間）を記録しました。テストには6日かかりました。分析にはさらに1週間かかりました。そして、私が見つけたことは、これらのツールの使用が本当に必要なのか疑問を抱かせるものでした。

シェイクスピアをAIとフラグ付けするのを見た日

テストの3日目、私が今でも考えている出来事が起こりました。私はサンプル#47を検出器にかけていました—「ハムレット」から抜き出した一節で、明らかな古語のパターンを避けるために少し現代化しました。ではなく、ただ「 thou 」を「 you 」に置き換え、いくつかの動詞の形を調整しました。 GPTZeroは87%のAI確率で返ってきました。私は画面を見つめ、私が見ていることを処理しようとしました。これはシェイクスピアでした。英語で最も研究された作家だと言えます。1616年に亡くなった彼は、ニューロネットが存在する4世紀前の人です。そして、アルゴリズムは機械生成の言葉だと自信満々でした—ためらいではなく、自信を持って。もう一度実行しました。間違えたと思ったからです。同じ結果でした。次に、元の、未現代化のテキストを試してみました。スコアは23%に下がりました。どうやら、古語のパターンはこれらの検出器に「人間」を示し、同じアイデアの現代英語のバージョンは「AI」を示すようです。そこで、根本的な問題を理解しました：これらのツールはAIを検出していないのです。彼らはAIと関連付けられるようにトレーニングされたパターンを検出していますが、そのパターンは明確でよく構築された人間のライティングに見られるパターンと重なることがよくあります。テストを続けました。サンプル#52はアメリカ合衆国憲法の前文からの段落でした。Originality.AIはそれを76%のAI生成の可能性があるとフラグしました。サンプル#61は1987年のソフトウェアガイドからの技術マニュアルの抜粋で、現代のAIが存在する数十年前に書かれました。5つの検出器のうち3つがそれをAIと呼びました。しかし、本当に私を困惑させたのは、サンプル#73は、最小限の編集でGPT-4を使用して生成した500ワードのエッセイだったことです。私はそれに、簡潔かつ情報的なスタイルで気候変動について書くように頼みました。すべての検出器がそれを人間が書いたものとしてマークしました。最も高いAI確率スコアは31%でした。パターンは明らかになりました：これらのツールは予測可能な方法で体系的に間違っています。彼らは公式でよく整理された人間のライティングをAIとフラグ付けし、カジュアルなまたは軽微な欠陥を含むAI生成のテキストを見逃しました。そして、彼らには一貫した論理がありません—ある検出器がフラグを立てたものを、別の検出器は承認しました。私はマリアを思い出しました、彼女は私のオフィスに涙を浮かべて座っていました。どれだけ多くの他の学生が、彼らがあまりに上手に書いたために誤って告発されたのでしょうか？どれくらいの学生が、明確で整理されたライティングが何らかの形で疑わしいことを学んだのでしょうか？

数値：検出器とジャンル別の精度の内訳

635の個別テスト（127サンプル×5検出器）を完了した後、私は結果を包括的なデータセットにまとめました。数値は次のことを明らかにしました：

検出器	全体の精度	偽陽性率	偽陰性率	学術	創造的	技術的	ジャーナリズム	個人的
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
平均	52%	43%	45%	54%	64%	46%	59%	56%

これらの数値が実際的な意味で何を示しているのかを説明しましょう。 52%の全体の精度は、これらの検出器がほとんどランダムな偶然より良くないことを意味します。もしあなたがテキストがAI生成であるか人間が書いたものであるかを決めるためにコインを投げたら、約50%の確率で正しいことになるでしょう。これらの高価で、いわゆる洗練されたツールは、それよりもわずかに優れたパフォーマンスを示しています。偽陽性率—人間が書いたテキストがAIとして誤ってフラグ付けされる割合—は平均43%でした。これは、ほぼ半分の本物の人間のライティングが誤って識別されたことを意味します。教育的な文脈では、これは壊滅的です。つまり、100人の学生がオリジナルの作品を提出すると、43人がAIを使用したとして誤って告発されるのです。偽陰性率—検出されずに見逃されたAI生成のテキスト—は平均45%でした。これは、これらのツールが実際に生成されたAIコンテンツのほぼ半分を見逃していることを意味します。もし目標がAIを使用する学生を見つけることであれ、その検出器も失敗しています。ジャンルの内訳はさらに問題のあるパターンを明らかにしました。技術文書は最も低い精度である46%であり、これにより、これらの検出器はコンピュータサイエンス、エンジニアリング、数学などの分野では基本的に無用です。創造的なライティングが最も良いパフォーマンスを示す64%だったが、それでもD評価です—学問の誠実性に関して重要な決定を下すツールには受け入れられません。学術的なライティング—これらのツールの主な使用ケース—は、わずか54%の精度を達成しました。これは誤った告発が最も深刻な結果をもたらすジャンルであり、検出器はほぼ偶然以上のものです。また、特定の検出器が他の検出器より一貫して優れているということはないことにも気付きました。GPTZeroは61%の最高の全体的精度を持っていましたが、偽陽性率も42%で最も高いものでした。Copyleaksは全体で最も悪いパフォーマンスを示し、精度は48%でした。基本的に、ランダムな推測と変わりありません。おそらく最も懸念すべき事実は、5つの検出器がすべて一致しているサンプルを調べたところ、彼らは34%の確率で間違っていました。合意していても精度が保証されることはありませんでした。

検出器企業があなたに言わないこと

私が最初の発見を教員のニュースレターで発表した後、私がテストした5つの企業のうち3つからメールを受け取りました。2社は「彼らの技術をより良く理解する手助けをする」と申し出ました。1社は、私が結果を広く公表すれば法的措置を取ると脅迫し、私の方法論が欠陥があり、結論が名誉毀損だと主張しました。その反応は、私が知るべきすべてを教えてくれました。私はこれらの企業が製品をどのようにマーケティングしているかと、それらが実際に提供するものとのギャップを掘り下げ始めました。その乖離は驚くべきものでした。

「私たちのAI検出モデルは99%の精度を達成し、偽陽性は0.2%未満です」とある企業は主張しました。