なぜ私が自分でAI検出器をテストすることにしたのか
決定的な瞬間は10月の火曜日の午後、オフィスアワー中に訪れました。私がマリアと呼ぶ学生が私のデスクの前に座り、大学のAI検出システムから印刷されたレポートを持つその手が震えていました。そのツールは彼女の個人的なエッセイ、つまり認知症を抱えた祖母の世話をすることについての生々しく、脆弱な作品を「98% AI生成の可能性がある」とフラグしました。 私はそのエッセイを読みました。私は3つのドラフトを通じてその進化を見てきました。その記憶を紙に書き起こすことの感情的な重みでマリアが苦しむ様子を見ました。そのエッセイがAIによって書かれたという宇宙は存在しませんでした。 しかし、検出ツールは異なる意見でした。そして、私たちの学部の新しいポリシーによれば、スコアが80%以上の時は自動的に学問の誠実性調査がトリガーされました。 マリアは一人ではありませんでした。2週間の間に、私は同様の会話を4回しました。毎回、私は学生が自分自身で作品を書いたと確信していました。毎回、検出器はそれとは異なる結果を示しました。そして、毎回、私はアルゴリズムを覆す具体的な証拠を持たず、私の専門的な判断に基づくしかありませんでした。その判断は「偏見がある」または「時代遅れかもしれない」と言われました。 そこで私は、これらのツールを信頼するのをやめ、テストを開始することにしました。 私は知りたかったのです:AIライティング検出器は本当にどれほど正確なのか? 彼らのマーケティング資料や厳選されたケーススタディに基づいてではなく、多様なライティングサンプルを使った実環境で。彼らの偽陽性率は? 偽陰性率は? ジャンル、ライティングスタイル、または人口統計グループによって異なるパフォーマンスを示すのか? 私はこれらの質問に答える研究を設計しました。他の学部からの同僚を募集し、公共ドメインのソースからサンプルを抜き出し、複数のモデルを使ってAIテキストを生成し、盲検テストのプロトコルを作成しました。それから、市場で最も人気のある5つのAI検出ツールを通じてすべてを実行しました。 結果は非常に否定的でした。実験の構造
私は1つのサンプルを分析する前に2週間、方法論を設計しました。これはカジュアルな比較ではありませんでした—学術研究に適用するのと同じ厳密さに耐えなければなりませんでした。 まず、私は異なる5つのジャンルにわたって127のテキストサンプルを集めました:学術エッセイ、創造的フィクション、技術文書、ジャーナリズム、個人的な物語。各ジャンルにはおおよそ25のサンプルがあり、人間が書いたものとAIが生成したものが均等に分かれていました。 人間が書いたサンプルには、さまざまなソースを使用しました。私は歴史的テキストのためにプロジェクト・グーテンベルクから抜き出しました(アメリカ合衆国憲法、シェイクスピア、バージニア・ウルフの抜粋を含む)。私は、学生のエッセイを過去の学期から収集しました—許可を得て、すべての識別情報を取り除きました。私は、発表された記事を寄稿したジャーナリストの友人に連絡をしました。私は異なるスタイルでいくつかのサンプルを自分でも書きました。 AI生成のサンプルには、4つの異なるモデルを使用しました:GPT-3.5、GPT-4、Claude、およびオープンソースモデルです。私は、フォーマルな学術文体からカジュアルなブログ投稿まで、異なるライティングスタイルを生成するためにプロンプトを変えました。また、AI出力を大幅に編集し、私自身の文を追加し、段落を再構成した「ハイブリッド」サンプルも作成しました—なぜなら、それが学生が実際に行うことだからです。 その後、重要な部分に入りました:すべてをランダム化しました。各サンプルにはコード番号を付けました。私だけがアクセスできるマスターキーを作成しました。テストを実行したとき、私自身がどのサンプルがどれか知りませんでした—無意識のバイアスを防ぐために、実際の提出を私の研究助手に処理させました。 私は、人気と機関の採用に基づいて5つのAI検出ツールを選択しました:GPTZero、Originality.AI、Copyleaks、Writer.comのAI検出器、およびTurnitinのAI検出機能です。私は127のサンプルすべてを5つの検出器に通し、彼らの信頼スコアとバイナリ分類(AIまたは人間)を記録しました。 テストには6日かかりました。分析にはさらに1週間かかりました。そして、私が見つけたことは、これらのツールの使用が本当に必要なのか疑問を抱かせるものでした。シェイクスピアをAIとフラグ付けするのを見た日
テストの3日目、私が今でも考えている出来事が起こりました。私はサンプル#47を検出器にかけていました—「ハムレット」から抜き出した一節で、明らかな古語のパターンを避けるために少し現代化しました。ではなく、ただ「 thou 」を「 you 」に置き換え、いくつかの動詞の形を調整しました。 GPTZeroは87%のAI確率で返ってきました。 私は画面を見つめ、私が見ていることを処理しようとしました。これはシェイクスピアでした。英語で最も研究された作家だと言えます。1616年に亡くなった彼は、ニューロネットが存在する4世紀前の人です。そして、アルゴリズムは機械生成の言葉だと自信満々でした—ためらいではなく、自信を持って。 もう一度実行しました。間違えたと思ったからです。同じ結果でした。 次に、元の、未現代化のテキストを試してみました。スコアは23%に下がりました。どうやら、古語のパターンはこれらの検出器に「人間」を示し、同じアイデアの現代英語のバージョンは「AI」を示すようです。 そこで、根本的な問題を理解しました:これらのツールはAIを検出していないのです。彼らはAIと関連付けられるようにトレーニングされたパターンを検出していますが、そのパターンは明確でよく構築された人間のライティングに見られるパターンと重なることがよくあります。 テストを続けました。サンプル#52はアメリカ合衆国憲法の前文からの段落でした。Originality.AIはそれを76%のAI生成の可能性があるとフラグしました。サンプル#61は1987年のソフトウェアガイドからの技術マニュアルの抜粋で、現代のAIが存在する数十年前に書かれました。5つの検出器のうち3つがそれをAIと呼びました。 しかし、本当に私を困惑させたのは、サンプル#73は、最小限の編集でGPT-4を使用して生成した500ワードのエッセイだったことです。私はそれに、簡潔かつ情報的なスタイルで気候変動について書くように頼みました。すべての検出器がそれを人間が書いたものとしてマークしました。最も高いAI確率スコアは31%でした。 パターンは明らかになりました:これらのツールは予測可能な方法で体系的に間違っています。彼らは公式でよく整理された人間のライティングをAIとフラグ付けし、カジュアルなまたは軽微な欠陥を含むAI生成のテキストを見逃しました。そして、彼らには一貫した論理がありません—ある検出器がフラグを立てたものを、別の検出器は承認しました。 私はマリアを思い出しました、彼女は私のオフィスに涙を浮かべて座っていました。どれだけ多くの他の学生が、彼らがあまりに上手に書いたために誤って告発されたのでしょうか? どれくらいの学生が、明確で整理されたライティングが何らかの形で疑わしいことを学んだのでしょうか?数値:検出器とジャンル別の精度の内訳
635の個別テスト(127サンプル×5検出器)を完了した後、私は結果を包括的なデータセットにまとめました。数値は次のことを明らかにしました:| 検出器 | 全体の精度 | 偽陽性率 | 偽陰性率 | 学術 | 創造的 | 技術的 | ジャーナリズム | 個人的 |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| 平均 | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
検出器企業があなたに言わないこと
私が最初の発見を教員のニュースレターで発表した後、私がテストした5つの企業のうち3つからメールを受け取りました。2社は「彼らの技術をより良く理解する手助けをする」と申し出ました。1社は、私が結果を広く公表すれば法的措置を取ると脅迫し、私の方法論が欠陥があり、結論が名誉毀損だと主張しました。 その反応は、私が知るべきすべてを教えてくれました。 私はこれらの企業が製品をどのようにマーケティングしているかと、それらが実際に提供するものとのギャップを掘り下げ始めました。その乖離は驚くべきものでした。「私たちのAI検出モデルは99%の精度を達成し、偽陽性は0.2%未満です」とある企業は主張しました。